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2017 年 是 人 工 智能 (Artificial Intelligence, AD 年 ， 人 工 智 能 技术 越 来 越 多 地 应 用 到 日 常 
生活 的 方方面面 。AlphaGo ZERO 碾 压 AlphaGo 实现 自我 学 习 ， 百 度 无 人 汽车 上 路 ，iPhone X 
开启 FaceID， 阿 里 和 小 米 先后 发 布 智能 音箱 ， 肯 德 基 上 线 人 脸 支付 …… 这 些 背 后 都 是 人 工 智 
能 技术 的 驱动 。2017 年 7 月 ， 国 家 发 布 了 新 一 代 人 工 智能 发 展 规划 ， 将 中 国人 工 智能 产业 的 
发 展 推 向 了 新 高 度 。 

人 工 智 能 技术 是 继 燕 汽机 、 电力、 互联 网 科技 之 后 最 有 可 能 带 来 新 一 次 产业 革命 浪潮 的 技 
A, 在 爆炸 式 的 数据 积累 、 基 于 神经 网 络 模型 的 新 型 算法 与 更 加 强大 、 成 本 更 低 的 计算 力 的 促 
进 下 , 本 次 人 工 智 能 的 发 展 受到 风险 投资 的 热烈 追捧 而 处 于 高 速 发 展 时 期 , 人 工 智 能 技术 的 应 
用 场景 也 在 各 个 行业 逐渐 明朗 ， 开 始 带 来 实际 商业 价值 。 在 金融 行业 ， 人 工 智能 可 以 在 风险 控 
制 、 资 产 配置 、 智 能 投 顾 等 方向 进行 应 用 ， 预 计 将 带 来 约 6000 亿 元 的 降 本 增益 效益 。 在 汽车 
行业 ， 人 工 智能 在 自动 驾驶 上 的 技术 突破 ， 将 带 来 约 5000 亿 元 的 价值 增益 。 在 医疗 行业 ， 通 
过 人 工 智能 技术 ， 在 药物 研发 领域 可 以 提高 成 功率 ， 在 医疗 服务 机 构 可 以 提供 疾病 诊断 辅助 、 
疾病 监护 辅助 ， 预 计 可 以 带 来 约 4000 亿 元 的 降 本 价值 。 在 零售 行业 ， 人 工 智 能 在 推荐 系统 上 
的 运用 将 提高 在 线 销售 的 销量 , 同时 能 够 对 市 场 进行 精准 预测 , 降低 库存 , 预计 将 带 来 约 4200 
亿 元 的 降 本 增益 效益 。 

人 工 智能 是 一 个 非常 广泛 的 领域 。 人工 智 能 技术 涵盖 很 多 大 的 学 科 , 包括 计算 机 视觉 ( 模 
式 识别 、 图 像 处 理 ) 、 自 然 语 言 理 解 与 交流 (语音 识别 ) 、 认 知 科学 、 机 器 人 学 (机 械 、 控 制 、 
设计 、 运 动 规划 、 任 务 规划 等 ) 、 机 器 学 习 《〈 各 种 统计 的 建 模 、 分 析 和 计算 的 方法 ) 。 人 工 智 
能 产业 链条 涵盖 了 基础 层 、 技 术 层 、 应 用 层 等 多 个 方面 ， 其 辐射 范围 之 大 , 单一 公司 无 法 包揽 
人 工 智 能 产业 的 每 个 环节 ,深耕 细 分 领域 和 协作 整合 多 个 产业 间 资 源 的 形式 成 为 人 工 智能 领域 
主要 的 发 展 路 径 。 

本 书 从 人 工 智 能 的 定义 入 手 ， 前 两 章 阐述 了 人 工 智能 火热 的 成 因 、 发 展 历程 、 产 业 链 、 技 





人 工 智能 与 大 数据 技术 导论 


术 和 应 用 场景 ,从 第 3 章 开 始 详细 阐述 人工 智能 的 几 个 核心 技术 (大 数据 、 机 器 学 习 、 深 度 学 
习 ) 和 最 流行 的 开源 平台 (TensorFlow〉。 通 过 本 书 ， 读 者 既 能 了 解 人 工 智能 的 方方面面 ( 广 
度 ) ， 又 能 深度 学 习 人 工 智能 的 重点 技术 和 平台 工具 ， 最 终 能 够 将 人 工 智能 技术 应 用 到 实际 工 
作 场 景 中 ， 共 同 创建 一 个 智能 的 时 代 。 


示例 代码 及 相关 下 载 


本 书 示例 代码 及 其 他 相关 材料 可 扫描 
右边 的 二 维 码 获 得 。 

如 果 下 载 有 问题 或 对 本 书 内 容 有 疑 
问 ， 请 联系 booksaga(2163.com ， 邮 件 主题 
为 “人 工 智能 与 大 数据 技术 导论 ”。 
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第 1 章 
ALBERI 


机 器 人 是 人 类 的 古老 梦想 。 希腊 神 话 中 已 经 出 现 了 机 械 人 , 至 今 机 器 人 仍然 是 众多 科幻 小 
说 的 重要 元 素 。 实 现 这 个 梦想 的 第 一 步 是 了 解 如 何 将 人 类 的 思考 过 程 形式 化 和 机 械 化 。 科 学 家 
们 被 这 一 梦想 深 深 吸 引 ， 开 始 研究 记忆 、 学 习 和 推理 。20 世纪 30 年 代 末 到 50 年 代 初 ， 神 经 
学 研究 发 现 大 脑 是 由 神经 元 组 成 的 电子 网 络 ， 克 劳 德 。 香 农 提出 的 信息 论 则 描述 了 数字 信号 ， 
图 灵 的 计算 理论 证 明了 一 台 仅 能 处 理 0 和 1 这 样 简单 二 元 符号 的 机 械 设 备 能 够 模拟 任意 数学 推 
理 。 这 些 密切 相关 的 成 果 暗 示 了 构建 电子 大 脑 的 可 能 性 。 在 1956 年 的 达 特 茅 斯 会 议 上 ，“ 人 
工 智能 ” (Artificial Intelligence, AI) 一 词 被 首次 提出 ， 其 目标 是 “制造 机 器 模仿 学 习 的 各 个 
方面 或 智能 的 各 个 特性 ， 使 机 器 能 够 读 懂 语 言 ， 形 成 抽象 思维 ， 解 决 人 们 目前 的 各 种 问题 ， 并 
能 自我 完善 ”。 这 也 是 我 们 今天 所 说 的 “强人 工 智能 ”的 概念 ， 其 可 以 理解 为 ， 人 工 智能 就 是 
在 思考 能 力 上 可 以 和 人 做 得 一 样 好 。 今 天 所 说 的 “ 弱 人 工 智能 ”是 指 只 处 理 特定 问题 的 人 工 智 
能 ， 如 计算 机 视觉 、 语 音 识别 、 自 然 语 言 处 理 , 不 需要 具有 人 类 完整 的 认 知 能 力 ， 只 要 看 起 来 
像 有 智慧 就 可 以 了 。 一 个 弱 人 工 智 能 的 经 典 例子 就 是 那个 会 下 围棋 并 且 仅仅 会 下 围棋 的 
AlphaGo. 

虽然 强人 工 智能 仍然 是 人 工 智能 研究 的 一 个 目标 ,但 是 强人 工 智能 算法 还 没有 真正 的 突 
破 。 大 多 数 的 主流 研究 者 希望 将 解决 局 部 问题 的 弱 人 工 智能 的 方法 组 合 起 来 实现 强人 工 智能 。 
业界 的 共识 是 ， 大 部 分 的 应 用 都 是 弱 人 工 智能 (如 有 监督 式 学 习 ) ,实现 近似 人 类 的 强人 工 智 
能 还 需要 数 十 年 ， 乃 至 上 百年 。 在 可 见 的 未 来 ， 强 人 工 智能 既 非 人 工 智能 讨论 的 主流 ， 也 看 不 
到 其 成 为 现实 的 技术 路 径 。 弱 人 工 智 能 才 是 在 这 次 人 工 智能 浪潮 中 真正 有 影响 力 的 主角 , 本 书 
将 聚焦 于 更 具有 现实 应 用 意义 的 弱 人 工 智能 技术 。 

从 各 国政 府 到 资本 、 业 界 都 热情 拥抱 人 工 智 能 ,以 人 工 智能 驱动 的 智能 化 变革 正在 引发 第 
4 次 工业 革命 。 虽 然 人 工 智能 在 2018 年 还 处 于 炒作 周期 的 顶峰 ， 但 我 们 可 以 预测 ， 人 工 智能 
正 变 得 更 加 实用 和 有 用 。 在 此 大 背景 下 ,我 们 有 必要 知道 人 工 智能 是 什么 、 火 在 哪里 、 是 否 已 
经 成 熟 。 人 工 智 能 技术 的 壁垒 在 哪里 ? 了 解 商业 化 的 边界 在 哪里 ， 才 能 更 好 地 理解 人 工 智能 。 























AI 是 什么 


人 工 智能 是 一 门 利用 计算 机 模拟 人 类 智能 行为 科学 的 统称 , 它 涵盖 了 训练 计算 机 使 其 能 够 
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完成 自主 学 习 、 判 断 、 决 策 等 人 类 行为 的 范畴 。AI 是 人 工 智能 的 英文 Artificial Intelligence 的 
首 字母 的 组 合 ， 它 是 当前 人 类 所 面 对 的 最 为 重要 的 技术 变革 。AI 技术 给 予 了 机 器 〈 这 里 的 机 
器 不 仅仅 指 机 器 人 ， 还 包括 消费 产品 ， 如 音箱 、 汽 车 等 范围 更 广 的 物体 ) 一 定 的 视听 感知 和 思 
考 能 力 。 例如 , 苹果 Siri 和 亚马逊 Echo 智能 音箱 可 以 帮助 我 们 通过 语音 控制 的 方式 设置 闹钟 、 
播放 音乐 、 回 复 信息 、 询 问 天 气 ， 还 可 以 聊天 ; 滴 滴 出 行 和 Uber 应 用 也 是 在 人 工 智能 技术 的 
驱动 下 帮助 司机 选择 最 佳 路 线 。 

除了 日 常生 活 外 ， 人 工 智能 在 工业 、 金融 、 安防 、 医疗 、 司法 等 领域 也 发 挥 了 巨大 的 作用 。 
工业 机 器 人 代替 人 类 完成 焊接 、 和 铸造 、 装 配 、 包 装 、 搬 运 、 分 发 货物 等 单调 、 重 复 、 繁 重 的 工 
作 ; 在 金融 领域 ， 人工 智能 技术 可 以 帮助 金融 机 构 提供 投资 组 合 建 议 , 创建 高 精度 的 风险 控制 
模型 ， 实 现 精准 营销 等 金融 活动 ; 对 于 安防 行业 ， 以 图 像 识别 、 人 脸 识别 为 代表 的 人 工 智能 技 
术 对 摄像 头 获取 的 海量 视频 信息 进行 解析 ， 已 被 广泛 应 用 于 门禁 系统 、 车 辆 检测 、 追 踪 嫌犯 等 
场景 中 ， 对 增强 安防 水 平 、 维 护 社会 稳定 、 提 高 刑侦 效率 等 都 有 重大 意义 ; 在 医疗 领域 ，IBM 
的 人 工 智 能 系统 Watson GAR) 已 被 多 家 医疗 机 构 采用 ， 它 可 以 帮助 医生 更 快 、 更 准确 地 诊 
断 疾病 , 还 能 提出 对 医疗 方案 的 疗效 及 风险 的 评估 , 这 将 有 效 地 弥补 有 些 地 区 医疗 资源 不 足 的 
缺陷 ， 美 国人 工 智能 律师 Rose Intelligence 可 以 理解 律师 向 它 提出 的 问题 ， 收 集 已 有 的 法 律 条 
文 、 参 考 文献 和 法 律 案件 等 数据 ， 进 行 推论 ， 给 出 基于 证 据 的 高 度 相关 性 答案 ， 这 样 的 系统 可 
以 减少 法 律 服务 成 本 ， 使 更 多 的 人 能 够 获得 法 律 帮助 。 


1.1.1 火热 的 Al 


人 工 智能 发 展 到 今年 (2018 E) 刚好 是 62 年 。 这 62 年 的 发 展 实际 上 经 历 了 三 个 阶段 : 
第 一 个 阶段 ，1956 年 到 1976 年 ， 注 重 逻 辑 推理 。 第 二 个 阶段 ， 从 1976 到 2006 年 ， 以 专家 系 
统 为 主 。2006 年 起 进入 重视 数据 、 自 主 学 习 的 认 知 智能 时 代 。 这 是 第 三 个 阶段 ， 它 会 持续 多 
长 时 间 ， 没 有 人 知道 。 

最 近 几 年 ， 在 算法 、 大 数据 、 计 算 力 等 技术 的 推动 下 ， 人 工 智能 开始 真正 解决 问题 ， 在 各 
行业 的 应 用 场景 逐渐 明朗 , 并 带 来 实际 商业 价值 。 目 前 , 无 论 在 学 术 界 、 投 资 界 , 还 是 在 职场 ， 
AL 异常 火热 ,根据 斯 坦 福 大 学 2017 年 12 月 发 布 的 AI 报告, AI 论文 发 表 数 量 激增 : 自从 1996 
年 以 来 ， 每 年 发 表 的 AI 论文 数量 增加 了 9 倍 以 上 ， 如 图 1-1 所 示 。 斯 坦 福 大 学 入 学 选修 人 工 
智能 和 机 器 学 习 入 门 课程 的 学 生 人 数 从 1996 年 以 来 增长 了 11 倍 以 上 。 在 美国 , 有 资本 投资 的 
AI 创业 公司 数量 从 2000 年 以 来 增加 了 14 倍 ， 如 图 1-2 所 示 。 在 美国 ， 投 资 AI 创业 的 基金 数 
量 也 在 增长 ， 从 2000 年 以 来 ， 每 年 投入 AI 创业 的 资本 额 增 加 了 6 倍 。 美 国 最 近 几 年 中 ， 每 
年 都 有 几 十 亿美 元 的 风险 资本 (VC) 进入 AI 领域 ， 人 工 智 能 相关 岗位 的 需求 也 在 急剧 增长 。 
图 1-3 展示 了 Indeed.com 平台 上 ， 从 2013 年 1 月 份 起 ，AI 技术 相关 工作 岗位 的 份额 的 增长 。 

在 开源 软件 使 用 和 生态 上 ,AI 软件 也 是 异常 火热 的 .图 1-4 展 示 了 AI 各 个 软件 包 在 GitHub 
上 加 星 标的 次 数 。 排 在 第 一 的 TensorFlow 是 排 在 第 二 的 scikit-leam 的 4 倍 左右 。 
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1.1.2 Al 的 驱动 因素 

某 著 名 咨询 公司 预计 ， 到 2025 年 ， 全 球 AI 市 场 规模 将 达到 3 万 亿美 元 。AI 持续 火热 的 
驱动 力主 要 来 自 于 技术 本 身 的 提高 ， 包 括 数据 、 算 法 、 计 算 力 、 大 数据 和 物 联 网 等 技术 ， 而 这 
些 正 是 人 工 智能 技术 发 展 的 基础 。 

@ 高 质量 和 大 规模 的 海量 数据 使 得 AI 成 为 可 能 

海量 数据 为 AI 技术 的 发 展 提供 了 充足 的 原材料 。 在 数据 生成 量 方面 ， 预 计 到 2020 年 ， 
将 达到 44ZB。 表 1-1 展示 了 数据 量 与 医疗 图 像 准 确 性 的 关系 ， 表 明了 训练 数据 量 越 大 ， 准 确 
性 越 高 。 

表 1-1 训练 数据 量 与 医疗 图 像 模型 准确 性 的 关系 (%) 

; 
59.7% 


30.63% 99.34% 
21.39% 86.57% 










训练 数据 集 大 小 
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胸腔 识别 23.3996 344596 96.1896 99.6196 
腹部 识别 0.196 3.23% 65.38% 95.18% 
BSRBIR Al 0% 1.15% 55.9% 88.45% 
平均 准确 性 8.0196 17.3796 71.1596 95.67% 
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© ”计算 力 提升 突破 瓶颈 

以 GPU 为 代表 的 新 一 代 计 算 芯 片 提供 了 更 强大 的 计算 力 ， 使 得 运算 更 快 。 同 时 ， 在 集群 
上 实现 的 分 布 式 计算 帮助 AI 模型 可 以 在 更 大 的 数据 集 上 快速 运行 。 

e 机 器 学 习 算法 取得 重大 突破 

以 多 层 神经 网 络 模型 为 基础 的 算法 ,使 得 机 器 学 习 算 法 在 图 像 识别 等 领域 的 准确 性 取得 了 
飞跃 性 的 提高 。 

€ /— 物 联网 和 大 数据 技术 为 AI 技术 的 发 展 提供 了 关键 要 素 


物 联网 为 AI 的 感知 层 提供 了 基础 设施 环境 ， 同 时 带 来 了 全 面 的 海量 训练 数据 。 大 数据 技 
术 为 海量 数据 在 存储 、 清 洗 、 整 合 方面 提供 了 技术 保障 ， 帮 助 提升 了 深度 学 习 算 法 的 性 能 。 


1.2 AI 技术 的 成 熟 度 


顾名思义 ，AI 就 是 能 够 让 机 器 做 一 些 之 前 只 有 “人 ” 才 做 得 好 的 事情 。 主 要 集中 在 这 几 
个 领域 ,视觉 识别 (看 ) 、 自 然 语言 理解 ( 听 ) 、 机 器 人 《〈 动 ) 、 机 器 学 习 〈 自 我 学 习 能 力 ) 
等 。 在 技术 层面 ，AI 分 为 感知 、 认 知 、 执 行 三 个 层次 。 感 知 技术 包括 机 器 视觉 、 语 音 识 别 等 


各 类 应 用 人 工 智能 技术 获取 外 部 信息 的 技术 , 认 知 技术 包括 机 器 学 习 技术 , 执行 技术 包括 人 工 





智能 与 机 器 人 结合 的 硬件 技术 以 及 智能 芯片 的 计算 技术 。 这 些 领域 目前 还 比较 散 , 它们 正在 交 
叉 发 展 ， 走 向 统一 的 过 程 中 。 

很 自然 地 ， 我 们 会 在 同一 个 任务 上 将 AT 系统 和 人 类 的 表现 进行 比较 。 在 某 些 任务 中 ， 计 
算 机 比 人 类 要 优秀 得 多 ， 例 如 ，70 年 代 的 小 计算 器 就 可 以 比 人 类 更 好 地 完成 算术 运算 。 但 是 ， 
AI 系统 在 处 理 诸如 回答 问题 、 医 学 诊断 等 更 通用 的 任务 时 更 加 困难 。AI 系统 的 任务 往往 是 在 
非常 窗 的 背景 下 进行 的 , 这 样 能 在 特定 的 问题 或 应 用 上 取得 进展 。 虽然 机 器 在 特定 的 任务 上 表 
现 出 卓越 的 性 能 ， 但 是 有 时 任务 稍微 有 所 改动 ， 系 统 性 能 就 会 大 大 降低 。 














1.2.4. 视觉 识别 


以 图 像 识别 和 人 脸 识别 为 代表 的 感知 技术 已 经 走向 了 应 用 市 场 , 特别 是 在 交通 、 医 疗 、 工 

业 、 农 业 、 金 融 、 商 业 等 领域 ， 带 动 了 一 批 新 业态 、 新 模式 、 新 产品 的 突破 式 发 展 ， 带 来 了 深 
刻 的 产业 变革 。2017 年 9 月 ， 苹 果 公司 发 布 的 最 新 产品 Phone X 包含 Face ID、 无 线 充电 、 自 
创 芯片 A11 Bionic 等 最 新 的 AI 技术。 苹果 的 Face ID 技术 有 人 脸 验 证 功能 。iPhone X 顶部 的 
“刘海 ”部 分 集成 了 实现 Face ID 功能 的 器 件 ， 包 括 红外 镜头 、 泛 光 感 应 元 件 、 点 阵 投影 器 和 


从 原理 上 讲 ， 当 红外 摄像 头发 现 一 张 面孔 时 ， 点 阵 投影 器 会 闪 射 出 3 万 个 光 点 ， 


接着 红外 摄像 头 会 捕捉 这 些 光 点 的 反馈 ， 从 而 采集 一 张 人 脸 的 3D 数据 模型 ， 并 与 Al1 Bionic 
芯片 中 存储 的 模型 进行 比 对 。 如 果 互 相 匹配 ， 就 可 以 解锁 了 ，iPhone X 随即 被 唤醒 。 为 了 更 加 


精确 地 进行 




















部 识别 ,苹果 开发 了 一 个 神经 引擎 ,用 神经 网 络 处 理 图 像 和 点 阵 模式 ,并 邀请 好 
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莱 坞 特效 面具 公司 制作 面具 来 训练 神经 网 络 ， 以 保证 安全 性 。The Verge 美国 科技 媒体 网 站 》) 
曾 借用 了 一 台 有 具有 夜 视 功 能 的 摄像 机 ， 成 功 拍摄 到 这 些 肉 眼 不 可 见 的 红外 光 点 , 可 以 看 到 这 3 
万 个 光 点 非常 密集 ， 不 只 是 投射 至 人 脸 ， 连 衣服 上 也 有 ， 视 觉 效果 极其 震撼 。 

如 图 1-5 所 示 ， 在 大 规模 视觉 识别 挑战 赛 (LSVRC) 比赛 中 ， 图 像 标签 的 错误 率 从 2010 
年 的 28.5% 下 降 到 了 2.5%，AI 系统 对 物体 识别 的 性 能 已 经 超越 了 人 类 。 在 国内 ， 视 觉 与 图 像 
领域 的 融资 排 在 第 一 ， 总 额 为 143 亿 元 ， 在 整个 AI 投资 中 占 比 23% (数据 来 源 : 腾讯 的 《中 
美 两 国人 工 智能 产业 发 展 报告 》) ， 说 明 国内 投资 者 非常 看 好 这 一 领域 。 





Object Detection, LSVRC Competition 
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图 1-5 物体 识别 能 力 比 较 〈 直 线 为 人 类 ， 曲 线 为 AD) 


122 ”自然 语言 理解 

自然 语言 理解 是 指 接受 语音 输入 , 通过 语音 识别 将 用 户 声音 转化 为 文字 , 再 运用 自然 语义 
分 析 理 解 用 户 行为 , 给 用 户 以 精准 的 搜索 结果 , 其 核心 技术 在 于 用 自然 语义 分 析 来 理解 人 们 像 
日 常 说 话 一 样 的 提问 。 在 词语 解析 方面 ，AI 系统 在 确定 句子 语法 结构 上 的 能 力 已 经 接近 人 类 
能 力 的 94%。 在 从 文档 中 找到 既定 问题 的 答案 的 能 力 已 经 越 来 越 接近 人 类 ( 见 图 1-6 ÆR) 。 
AI 系统 识别 语音 录音 的 表现 早 在 2016 年 就 已 经 达到 了 人 类 水 平 OREL 1-6 GED 。 


Speech Recognition, Switchboard HUBS'00 


Question Answering, SQUAD v1.1 
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图 1-6 问答 准确 性 比较 〈 左 图 ) 和 语音 识别 能 力 比较 ( 右 图 ， 直线 为 人 类 ， 曲 线 为 AD 


从 PC 互联 网 到 移动 互联 网 再 到 AI 时 代 ， 每 个 时 代 都 伴随 着 一 次 交互 式 的 变革 。 利 用 语 
音 识 别 、 自 然 语 言 处 理 等 技术 研发 的 对 话机 器 人 ,正在 改变 着 传统 的 人 机 交互 方式 。 它 们 或 内 
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IIMA, 或 与 硬件 相 结合 ， 致 力 于 成 为 用 户 的 个 性 化 处 理 。 目 前 ， 这 些 “ 助 理 ” 已 经 
具备 了 基本 的 问答 、 对 话 以 及 上 下 文理 解 功能 。 它 们 正在 打造 全 新 的 人 机 交互 方式 , 为 用 户 提 
供 多 场景 的 便捷 服务 。 例 如 ， 智 能 音箱 在 2017 年 的 美国 消费 中 成 为 热门 产品 。 虽 然 语 音 交 互 
的 老大 依然 是 苹果 公司 的 Siri， 但 是 Amazon Alexa 正在 快速 崛起 〈 见 图 1-7 左边 的 产品 ) ， 
它 不 仅 可 以 对 话 应答 ， 而 且 可 以 和 多 种 智能 家 居 设 备 进行 交互 。 伴 随 着 Amazon Echo 智能 音 
箱 的 诞生 ，Alexa 的 用 户 数量 在 一 年 内 增长 了 325%。 谷 歌 〈 产 品名 称 为 Google Home， 见 图 
1-7 中 间 的 产品 ) . (dX. ER, Facebook 都 在 争夺 这 块 智能 音箱 市 场 。 微 软 也 推出 了 内 婴 
Cortana (小 娜 ) 的 Invoke 音箱 ， 并 且 将 Conversation as Platform (对话 即 平台 ) FARK. 
果 于 2018 年 2 月 9 日 正式 上 市 开 卖 HomePad 智能 音箱 ， 有 白色 和 太空 灰 两 个 版 本 〈 见 图 1-7 
右边 的 产品 ) 。 

















图 1-7 智能 音箱 产品 
语音 交互 可 以 说 是 人 与 机 器 “交流 ”的 重要 环节 , 这 对 于 未 来 的 人 工 智能 而 言 是 非常 关键 





的 入 口 。 在 国内 ， 自 然 语 音 处 理 领域 的 融资 排 在 第 二 ， 总 额 为 122 亿 元 ， 在 整个 AI 投资 中 占 
比 19%。 国 内 企业 中 ， 京 东 在 两 年 前 与 科大 讯 飞 公司 合作 布局 了 智能 音箱 ， 致 力 于 成 为 家 庭 
控制 中 心 。 阿 里 推出 了 名 叫 “ 天 猫 精 灵 X1” 的 智能 音箱 ， 小 米 推出 了 小 米 AI 音箱 。 阿 里 的 
智能 音箱 “天 猫 精 灵 ” 在 2017 年 “ 双 11” 期 间 更 是 进行 了 巨额 补贴 ， 以 低 于 成 本 价 销售 ， 仅 
“ 双 11” 当 天 销量 便 达到 100 万 台 。 激 烈 的 音箱 之 争 背后 其 实 是 下 一 代 服务 入 口 之 争 。 

搭载 百度 DuerOS 的 智能 硬件 产品 也 在 陆续 面世 。 DuerOS 是 百度 基于 AI 技术 打造 的 对 话 
式 人 工 智能 系统 ,搭载 DuerOS 的 设备 可 让 用 户 以 自然 语言 对 话 的 交互 方式 (比如 “小 度 小 度 ， 
我 想 听 陈百强 的 歌 ”) 实现 影音 娱乐 、 信 息 查询 、 生 活 服务 、 出 行路 况 等 多 项 功能 。 目 前 ， 腾 
讯 的 所 有 语音 端 都 采用 自己 研发 的 AI 技术 ， 而 阿里 的 淘宝 、 支 付 宝 电 话 客 服 、 天 猫 精 灵 、 优 
酷 、 虾米 音乐 等 都 应 用 了 自己 的 语音 技术 。 搜 狗 也 已 组 建 了 自己 的 语音 团队 , 推出 了 语音 实时 
翻译 技术 。 除 了 使 用 自家 语音 技术 外 ，BAT 也 在 加 速 对 外 开放 平台 ， 滚 动 扩张。 阿里 云 、 腾 
讯 云 小 微 、 百 度 DuerOS 平台 都 开放 了 语音 识别 、 视 觉 识别 等 AI 技术 。 百 度 还 宣布 语音 技术 
全 系列 接口 永久 免费 开放 。 

在 谷歌 IO 2018 大 会 上 , 语音 助手 Google Assistant HRA. 作为 谷歌 AI 用 户 感 观 最 直接 
的 语音 助手 ， 谷 歌 试图 将 其 打造 得 更 近似 人 : 其 一 是 声音 拟人 化 ， 其 二 是 对 话 日 常 化 。IO 大 
会 现场 展示 了 指令 Google Assistant 预定 餐厅 座位 ， 然 后 发 出 指令 的 人 即 可 忙 自己 的 事 ， 而 AI 
将 自行 打 电 话 给 餐厅 , 通过 多 轮 对 话 与 餐厅 工作 人 员 敲 定好 时 间 。 在 这 个 展示 上 , 突显 的 亮点 
是 ， 对 话 能 力 加 强 ， 近 似 日 常 交 流 习 惯 ， 极 大 地 提高 了 与 机 器 对 话 的 用 户 体验 。 

语音 是 下 一 代 人 机 交互 的 入 口 , 未 来 语音 技术 会 向 各 场景 渗透 。 它 们 不 但 可 以 响应 用 户 命 
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令 并 执行 任务 ， 如 回答 问题 、 设 置 闹钟 、 检 查 航 班 行程 等 ,而且 与 搜索 、 手 机 、 智 能 家 居 等 紧 
密 结 合 。 除了 产品 市 场 本 身 之 外 , 争夺 未 来 以 语音 交互 为 核心 的 智能 家 居 生 态 的 入 口 ， 是 科技 
巨头 纷纷 推出 智能 音箱 的 重要 原因 。 智 能 语音 这 块 蛋糕 有 多 大 ， 目 前 还 未 可 知 。 有 一 点 越 来 越 
清晰 ， 未 来 肯定 是 通过 人 工 智能 核心 技术 + 应 用 数据 + 领域 支持 构建 垂直 入 口 或 行业 刚 需 。 到 
目前 为 止 ，BAT 加 速 布局 2B (CAWR) 和 2G (政府 ) 市 场 ， 在 教育 、 医 疗 、 司 法 、 汽 车 、 
客服 等 领域 都 已 有 涉 猫 。 








1.23 机 器 人 

大 部 分 智能 机 器 人 目前 还 处 于 产业 发 展 初期 , 但 随 着 全 球 人 工 智 能 步 入 第 三 次 高 潮 期 , 智 
能 化 成 为 当前 机 器 人 重要 的 发 展 方向 ， 人工 智能 与 机 器 人 融合 创新 , 进一步 提升 机 器 人 的 智能 
化 程度 。 智 能 机 器 有 自主 的 感知 、 认 知 、 决 策 、 学 习 、 执 行 和 社会 协作 能 

2017 年 10 月 ， 网 红 机 器 人 Sophia 上 了 各 大 新 闻 媒 体 的 头条 。 她 已 经 正式 获得 了 沙特 的 
公民 身份 , 成 为 第 一 个 有 公民 身份 的 机 器 人 。Sophia 由 汉 森 机 器 人 技术 公司 (Hanson Robotics) 
于 2015 年 推出 ， 她 具有 强大 的 语音 识别 、 视 觉 数据 处 理 和 面部 识别 功能 。Sophia 在 与 人 对 话 
的 时 候 能 够 非常 快 地 识别 人 脸 ， 并 且 在 对 话 过 程 中 与 人 进行 眼神 交流 。 与 此 同时 ，Sophia 还 
可 以 模仿 人 类 的 手势 和 面部 表情 , 并 能 够 与 人 类 进行 自然 的 语言 交流 。 她 采用 了 来 自 Alphabet 
公司 (谷歌 的 母 公司 ) 的 语音 识别 技术 ， 利 用 AI 程序 分 析 会 话 并 提取 数据 ， 语 言 功能 会 随 着 
时 间 的 推移 变 得 更 加 智能 化 。 这 款 机 器 人 适合 放置 在 养老 院 陪伴 老人 聊天 , 也 很 适合 教 小 朋友 。 

最 近 ， 美 国 波士顿 动力 公司 (Boston Dynamics) 的 研究 重点 是 像 狗 一 样 的 细 长 机 器 人 ， 它 
可 以 息 楼 梯 ， 在 与 人 类 的 拔河 中 保持 住 姿 势 ， 并 可 以 开门 ， 让 其 他 机 器 人 通过 。 这 些 视 频 不 禁 
让 人 联想 到 快速 、 强 大 ， 有 时 甚至 令 人 生 展 的 未 来 机 器 人 。2018 年 5 月 24 日 ,在 波士顿 举行 的 
机 器 人 技术 峰会 上 ， 波 士 顿 动力 公司 的 小 型 机 器 人 SpotMini 正 穿 过 会 议 室 ， 如 图 1-8 所 示 。 


























图 1-8 波士顿 动力 公司 的 小 型 机 器 人 SpotMini 正 穿 过 会 议 室 

从 全 球 范围 来 看 ， 日 本 ASMO Actroid-F 仿 人 机 器 人 、Pepper 智能 机 器 人 、 美 国 BigDog 
仿生 机 器 人 等 一 大 批 智能 机 器 人 快速 涌现 , 巨头 企业 也 纷纷 通过 收购 机 器 人 企业 , 将 智能 机 器 
人 作为 人 工 智能 重要 的 载体 , 推动 人 工 智能 发 展 , 例如 谷歌 相继 收购 Schaft. Redwood Robotics 
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等 9 家 机 器 人 公司 ， 积 极 在 类 人 型 机 器 人 制造 、 机 器 人 协同 等 方面 布局 。 从 国内 市 场 来 看 ， 国 
内 包括 商用 机 器 人 在 内 的 服务 机 器 人 市 场 规模 在 2017 年 突破 200 亿 元 。 随 着 智能 机 器 人 市 场 
的 规模 越 来 越 大 ， 且 智能 机 器 人 切入 点 种 类 繁多 , 创业 公司 和 巨头 纷纷 从 不 同 的 领域 、 方 向 和 
切入 点 加 入 智能 机 器 人 领域 的 市 场 争 夺 。 

值得 指出 的 是 , 机 器 人 进展 有 时 不 尽 人 意 。 以 前 日 本 人 常常 炫耀 他 们 的 机 器 人 能 跳舞 , 结 
果 一 个 福 岛 核 辐射 事故 一 下 子 把 所 有 问题 都 暴露 了 , 发 现 他 们 的 机 器 人 一 点 招 都 没有 。 美国 也 
派 了 机 器 人 过 去 ， 同 样 出 了 很 多 问题 。 比 如 一 个 简单 的 技术 问题 ， 机 器 人 进 到 灾难 现场 ， 背 后 
拖 一 根 长 长 的 电缆 ， 要 供电 和 传 数据 ， 结 果 电 缆 就 被 绰 住 了 ， 动 弹 不 得 。 所以， 智能 服务 机 器 
人 仍 处 于 产业 化 起 步 阶段 。 


1.2.4 自动 驾驶 


AI 的 智能 程度 决定 了 无 人 驾驶 的 可 靠 性 ， 苹 果 、 谷 歌 、 特 斯 拉 、 百 度 等 公司 持续 研发 无 
人 驾驶 技术 。 虽 然 出 行 环境 变化 多 样 ， 当 前 的 技术 水 平 还 无 法 直接 应 用 于 日 常 上 路 。 但 在 出 行 
过 程 中 ， 人 工 智 能 技术 已 经 开始 发 挥 作用 ， 包 含 行车 记录 仪 、 测 距 仪 、 雷 达 、 传 感 器 、GPS 
等 设备 的 ADAS 系统 ， 已 经 可 以 帮助 汽车 实时 感知 周围 情况 并 发 出 警报 ， 实 现 高 级 辅助 驾驶 ， 
保证 用 户 出 行 安全 。 自 动 驾驶 的 技术 核心 包括 高 精度 地 图 、 定 位 、 感 知 、 智 能 决策 与 控制 四 大 
模块 。 自 动 驾 驶 汽车 依托 交通 场景 物体 识别 技术 和 环境 感知 技术 ， 实 现 高 精度 车 辆 探测 识别 、 
跟踪 、 距 离 和 速度 估计 、 路 面 分 割 、 车 道 线 检测 ， 为 自动 驾驶 的 智能 决策 提供 依据 。 

在 2017 年 的 AI 开发 者 大 会 中 ， 百 度 无 人 驾驶 汽车 实现 在 北京 五 环行 驶 ， 在 之 后 的 百度 
世界 大 会 上 , 百度 CEO 李彦宏 表示 , 百度 公司 和 金龙 汽车 合作 生产 的 一 款 无 人 驾驶 的 小 巴 车 ， 
将 在 2018 年 7 月 份 实现 量 产 。 伴 随 着 AI 及 车 载 设备 、 无 人 驾驶 的 发 展 ， 车 联网 逐渐 成 形 ， 
在 AI 保障 行驶 安全 的 同时 ， 将 在 车 载 环境 中 衍生 出 更 多 需求 及 服务 。 百 度 将 通过 无 人 驾驶 汽 
车 打通 现 有 的 产品 ， 包 括 百度 地 图 、 百 度 音乐 、 百 度 支付 等 ， 打 造 生态 闭环 。 

汽车 行业 正经 历 大 规模 的 颠覆 , 汽车 厂商 越 来 越 意识 到 , 半自动 和 全 自动 驾驶 车 辆 将 需要 
基于 AI 的 计算 机 视觉 解决 方案 ， 以 确保 安全 驾驶 。 特 斯 拉 推 出 了 多 款 电动 车 ， 包 括 Model S、 
Model 3〈 前 面 两 个 为 小 轿车 ) . Model X (SUV) 、Semi 电动 卡车 等 车 型 。 这 些 车 型 配备 了 
半自动 化 驾驶 技术 ， 包 括 自 动 制 动 、 车 道 保持 以 及 车 道 偏离 警告 等 功能 。 在 国内 ， 自 动 驾驶 / 
辅助 驾驶 融资 107 亿 元 , 在 整个 国内 AI 投资 中 占 比 18%。 中国 的 自动 驾驶 /辅助 驾驶 企业 虽然 
只 有 31 家 ， 但 融资 额 却 排 在 第 三 。2017 年 11 月 的 百度 世界 大 会 上 ， 百 度 汽车 智能 开放 平台 
Apollo 正式 开放 两 款 产品 : Apollo 小 度 车 载 智能 系统 和 Apollo Pilot。 在 2018 年 的 CES E, 
百度 发 布 了 Apollo 2.0 版 本 。 

与 人 类 水 平 相当 的 无 人 驾驶 可 能 需要 更 长 时 间 的 测试 才能 成 熟 起 来 , 但是， 我 们 预 估 , 在 
未 来 几 年 中 ， 越 来 越 多 的 汽车 厂商 和 IT 公司 会 进入 自动 驾驶 领域 。 目 前 ， 自 动 驾驶 研究 领域 
基本 分 为 两 大 阵营 : 


CD 传统 汽车 厂商 和 Mobileye 公司 合作 的 “ 递 进 式 ” 应 用 型 阵营 一 一 “在 任何 区 域 里 发 
挥 局 部 功能 ”， 强 调 “万 无 一 失 ” 的 复杂 传感器 组 合 (redundancy in system) 识别 周围 环境 。 

















通过 低 精度 导航 地 图 在 任何 区 域 实现 无 人 驾驶 。 

(2) 以 谷歌 、 百 度 以 及 初创 科技 公司 为 主 的 “越级 式 ” 研 究 型 阵营 一 一 “在 特定 区 域 里 
发 挥 全 效 功 能 ”， 强 调 通 过 采集 某 一 区 域 的 高 精度 3D 地 图 信息 配合 激光 雷达 在 某 一 区 域 实现 
无 人 驾驶 。 

但 是 殊途同归 ， 两 大 阵营 的 终极 愿景 都 是 : “在 任何 区 域 里 发 挥 全 效 功能 ”。 





1.25 ”机 器 学 习 


人 的 大 脑 一 直 是 一 个 未 解 之 迹 。 人 类 如 何 思考 , 人 类 的 大 脑 如 何 工作 , 智能 的 本 质 是 什么 ， 
是 古今 中 外 的 哲学 家 和 科学 家 一 直 在 努力 探索 和 研究 的 问题 ,早期 的 研究 者 将 逻辑 视 为 人 类 智 
慧 最 重要 的 特征 。 让 计算 机 中 的 人 工 智能 程序 遵循 逻辑 学 的 基本 规律 进行 运算 、 归 纳 或 推理 ， 
是 许多 早期 人 工 智能 研究 者 的 最 大 追求 。 但 人 们 很 快 发 现 ， 人 类 思考 实际 上 仅 涉 及 少量 逻辑 ， 
大 多 是 直觉 的 和 下 意识 的 “经 验 ”。 基 于 知识 库 和 逻辑 学 规则 构建 的 人 工 智能 系统 例如 专家 
系统 ) 只 能 解决 特定 的 狭小 领域 问题 ,很 难 被 扩展 到 宽广 的 领域 和 日 常生 活 中 。 于 是 , 一些 研 
究 者 提出 了 一 种 全 新 的 实现 人 工 智能 的 方案 ， 那 就 是 机 器 学 习 。 

人 类 的 聪明 之 处 就 在 于 可 以 通过 既 有 的 认 知 触 类 旁 通 地 推理 出 未 知 的 问题 。 如 图 1-9 所 
示 ， 人 类 看 书 ( 书 就 是 数据 ) 时 ,依靠 自身 的 思考 与 学 习 从 书 中 提炼 出 智慧 ， 机 器 学 习 是 让 计 
算 机 利用 已 知 数据 得 出 适当 的 模型 , 并 利用 此 模型 对 新 的 情境 给 出 判断 的 过 程 。 机 器 学 习 本 质 
上 是 一 种 计算 机 算法 ， 计 算 机 通过 大 量 样本 数据 的 训练 能 够 对 以 后 输入 的 内 容 做 出 正确 的 反 
馈 。 训 练 的 过 程 就 是 通过 合理 的 试 错 来 调整 参数 ， 使 得 出 错 率 降低 ， 当 出 错 率 低 到 满足 预期 的 
时 候 ， 就 可 以 拿 出 来 应 用 了 。 机 器 学 习 分 为 有 监督 学 习 和 无 监督 学 习 。 











新 的 BP “未 知 
数据 : 属性 


新 的 
问题 





图 1-9 机 器 学 习 与 人 脑 思考 


机 器 学 习 的 应 用 非常 广泛 , 应 用 在 文本 方面 就 是 自然 语言 处 理 , 应 用 在 图 像 方面 就 是 图 像 
(模式 ) 识别 ， 应 用 在 视频 上 就 是 实体 识别 ， 应 用 在 汽车 上 就 是 自动 驾驶 ， 等 等 。 

机 器 学 习 重要 的 成 果 是 2006 年 关于 深度 学 习 (Deep Learning) 的 突破 。 深 度 学 习 起 源 于 
20 世纪 八 九 十 年 代 的 神经 网 络 研究 。 深 度 学 习 模型 的 灵感 来 自 于 人 类 大 脑 视 觉 皮 层 以 及 人 类 
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学 习 的 方式 , 以 工程 化 方法 对 功能 进行 简化 。 深度 学 习 模型 是 否 精确 反映 了 人 类 大 脑 的 工作 方 
式 还 存在 争议 , 但 重要 的 是 这 一 技术 的 突破 让 机 器 第 一 次 在 语音 识别 、 图像 识 别 等 领域 实现 了 
与 人 类 同等 甚至 超过 人 类 的 感知 水 平 ， 从 实验 室 走向 产业 ， 发 挥 价值 。2017 年 11 月 ， 谷 歌 发 
布 了 TensorFlow Lite, 这 是 一 款 深度 学 习 工 具 , 让 开发 者 可 以 在 移动 设备 上 实时 地 运行 人 工 智 
能 应 用 ,已 开放 给 Android 和 iOS 开发 者 使 用 。TensorFlow Lite 发 布 时 还 提供 了 有 限 的 预 训练 
人 工 智 能 模型 ， 包 括 MobileNet 和 Inception V3 物体 识别 计算 机 模型 ， 以 及 Smart Replay 自然 
语言 处 理 模型 。 开 发 者 自己 的 数据 集训 练 的 定制 模型 也 可 以 部 署 在 上 面 。TensorFlow Lite 使 用 
Android 神经 网 络 应 用 程序 界面 (API) ， 可 以 在 没有 加 速 硬件 时 直接 调用 CPU 来 处 理 ， 确 保 
其 可 以 兼容 不 同 设备 。 

美国 大 笔 投 资 在 机 器 学 习 应 用 上 ， 占 美国 整个 AI 投资 的 21%。 这 一 领域 是 仅 次 于 芯片 的 
吸金 领域 (芯片 投资 的 占 比 为 31%) 。 机 器 学 习 热 潮 是 由 三 个 基本 因素 的 融合 推动 的 ， (1) 
深度 学 习 算法 的 持续 突破 ; 〈2) 大 数据 的 快速 增长 ，〈3) 机 器 学 习 的 计算 加 速 ， 如 GPU i 
片 这 样 的 机 器 学 习 硬 件 ， 将 训练 时 间 从 几 个 月 缩短 到 几 天 、 几 个 小 时 。 这 些 硬件 芯片 正在 迅速 
发 展 ， 谷 歌 、 英 伟 达 、 英 特 尔 等 公司 都 宣布 推出 下 一 代 GPU 芯片 硬件 ， 这 将 进一步 加 快 训 
练 速度 10-100 倍 。 


1.2.6 游戏 


游戏 是 一 个 相对 简单 和 可 控 的 实验 环境 ， 因 此 经 常用 于 AI 研究 。 在 游戏 领域 ，AI 已 超过 
人 类 。 


1. 国际 象棋 


20 世纪 50 年 代 ， 一 些 计算 机 科学 家 预测 ， 到 1967 年 ， 计 算 机 将 击败 人 类 象棋 冠军 。 但 
直到 1997 年 ，IBM 的 “深蓝 ”系统 才 击 败 当时 的 国际 象棋 冠军 Gary Kasparov。 如 今 ， 在 智能 
手机 上 运行 的 国际 象棋 程序 可 以 表现 出 大 师 级 的 水 平 。 

2. 围棋 

2016 年 3 月 ,谷歌 DeepMind 团队 开发 的 AlphaGo 系统 击败 了 围棋 冠军 。DeepMind 后 来 
发 布 了 AlphaGo Master， 并 在 2017 年 3 月 击败 了 排名 第 一 的 柯 洁 。2017 年 10 月 ，DeepMind 
发 表 在 Nature 上 的 论文 详细 介绍 了 AlphaGo 的 另 一 个 新 版 本 一 一 AlphaGo Zero， 它 以 100:0 
击败 了 最 初 的 AlphaGo 系统 。 

AlphaGo 成 功 的 背后 是 结合 了 深度 学 习 、 强 化 学 习 (Reinforcement Learning) 与 搜索 树 算 
法 (Tree Search) 三 大 技术 。 简单 来 说 , 当时 的 AlphaGo 有 两 个 核心 : 策略 网 络 (Policy Network) 
和 评价 网 络 (Value Network) ， 这 两 个 核心 都 是 由 卷 积 神经 网 络 所 构成 的 。 具 体 而 言 ， 首 先 
在 “策略 网 络 ” 中 输入 大 量 棋谱 ， 机 器 会 进行 监督 式 学 习 ， 然 后 使 用 部 分 样本 训练 出 一 个 基础 
版 的 策略 网 络 ， 并 使 用 完整 样本 训练 出 “ 进 阶 版 ”的 策略 网 络 ， 让 这 两 个 网 络 对 弈 ， 机 器 通过 
不 断 新 增 的 环境 数据 调整 策略 ， 也 就 是 所 谓 的 强化 学 习 。 而 “策略 网 络 ” 的 作用 是 选择 落 子 的 
位 置 ， 再 由 “评价 网 络 ” 来 判断 盘面 ， 分 析 每 个 步 数 的 权重 ， 预 测 游戏 的 输赢 结果 。 当 这 两 个 
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网 络 把 落 子 的 可 能 性 缩小 到 一 个 范围 内 时 , 机 器 计算 需要 庞大 运算 资源 的 负担 减少 了 ,再 利用 
蒙特 卡 洛 搜索 树 于 有 限 的 组 合 中 算出 最 佳 解 。 而 AlphaGo Zero 与 AlphaGo 不 同 ， 它 没有 被 输 
入 任何 棋谱 ， 而 是 从 一 个 不 知道 围棋 游戏 规则 的 神经 网 络 开始 ， 仅 通过 全 新 的 强化 学 习 算法 ， 
让 程序 自我 对 弈 ， 自 己 成 为 自己 的 老师 ， 在 这 个 过 程 中 ， 神 经 网 络 不 断 被 更 新 和 调整 。 


3. 扑克 


2017 年 ， 在 宾夕法尼亚 州 匹 效 堡 ， 由 卡耐基 梅 隆 大 学 团队 研发 的 人 工 智能 系统 Libratus 
和 4 位 德州 扑克 项 级 选手 展开 了 一 场 为 期 20 天 的 应 战 ， 经 过 12 万 手 牌 的 比赛 ，Libratus 获得 
了 最 终 胜利 ， 赢 取 了 20 万 美元 的 奖金 。Libratus 的 策略 并 非 基于 专业 玩家 的 经 验 ， 它 的 玩 牌 
方式 有 明显 的 不 同 。 研 发 团队 采用 了 一 套 叫 作 Counterfactual Regret Minimization ( 反 事 实 的 遗 
憾 最 小 化 ) 的 算法 ， 利 用 在 匹兹堡 超级 计算 机 中 心 大 约 1500 万 核心 小 时 的 计算 ， 它 会 先 让 
Libratus 反复 地 进行 自我 博弈 ， 随 机 地 玩 上 万 亿 手 扑克 ， 不 断 地 试 错 ， 建 立 自己 的 策略 ， 最 终 
达到 顶尖 扑克 玩家 的 水 平 。Libratus 可 以 通过 强大 的 计算 和 统计 能 力 ， 把 各 种 打 法 杂 灶 ， 并 通 
过 推理 对 其 进行 任意 排列 , 将 下 注 范 围 和 随机 性 提高 到 人 类 牌 手 无 法 企及 的 程度 , 让 人 类 玩家 
难以 猜测 自己 手中 到 底 握 有 什么 样 的 牌 。 系 统 检测 自身 在 每 轮 比赛 中 的 弱点 , 每 天 补救 最 明显 
的 失误 ， 最 终 赢 得 比赛 。 

中 国 工程 院 院士 高 文 总 结 了 什么 样 的 AI 系统 不 需要 外 部 数据 就 可 以 战胜 人 ， 实 际 上 需要 
满足 以 下 三 个 条 件 : 


(1) 集合 是 封闭 的 。 无 论 是 状态 集 还 是 其 他 集 ， 集 合 都 是 封闭 的 ， 我 们 知道 围棋 集合 是 
封闭 的 。 

(2) 规则 是 完备 的 。 也 就 是 说 ， 下 棋 时 什么 地 方 能 下 ， 什 么 地 方 不 能 下 ， 这 个 规则 是 完 
全 完备 的 ， 不 能 随便 更 改 。 

(3) 约束 是 有 限 的 。 也 就 是 说 ， 在 约束 条 件 下 ， 不 可 以 递 规 ， 因 为 有 了 递 规 之 后 ， 往 下 
推演 就 停 不 下 来 ， 而 有 限 的 时 候 就 能 停 下 来 。 


满足 这 三 个 条 件 , 不 需要 外 部 数据 ， 系 统 自己 产生 数据 就 够 了 。 所 以 可 以 预见 , 今后 有 很 
多 情况 ,你 可 以 判断 这 个 人 和 机 器 最 后 谁 能 赢 ,满足 这 三 个 条 件 机 器 一 定 能 赢 , 无 论 是 德州 扑 
克 还 是 围棋 ， 类 似 的 情况 很 多 。 




















1.3 美国 AI 巨头 分 析 


在 美国 ， 引 领 AI 产业 发 展 的 巨头 主要 是 谷歌 、 苹 果 、 微 软 、 亚 马 示 、Facebook、IBM、 
特 斯 拉 等 公司 ， 这 些 公司 都 在 AI 领域 部 署 了 大 量 的 资源 。 表 1-2 总 结 了 这 几 个 公司 在 各 个 层 
面 上 的 部 署 情况 。 





























人 工 智能 与 大 数据 技术 导论 


表 1-2 RHA 巨头 公司 的 技术 布局 

技术 层 基础 层 

消费 级 产品 行业 解决 方案 技术 平台 /框架 芯片 

谷歌 无 人 车 、Google | Voice Intelligence TensorFlow 系统 、Cloud | 定制 化 TPU, Cloud 
Home API, Google Cloud | Machine Learning Engine | TPU、 量 子 计 算 机 
智能 音箱 Echo 、 
Alexa 语音 助手 、 智 
能 超市 Amazon go、 
PrimeAir 无 人 机 


聊天 机 器 人 Bot、 人 





Amazon Lex、 
Amazon Polly、 AWS 分 布 机 器 学 习 平台 | Annapurna ASIC 
Amazon Rekognition 


人 脸 识别 技术 
DeepFace、 





ER 管家 Jarvis, 
Facebook 智能 管家 Jarvis DeepMask、 


深度 学 习 框 架 Torchnet、 | 人 工 智能 硬件 平台 


智能 照片 管理 应 用 FBLearner Flow Big Sur 


SharpMask, 
Moments po 


MultiPathNet 


Skype 即时 翻译 、 小 

冰 聊 天 机 器 人 、 

Cortana 虚拟 助理 、 微软 认 知 服务 DMTK、Bot Framework | FPGA 芯片 
Tay、 智 能 摄像 头 

A-eye 


TT iip dian |] sem E 
Engine 
bow | | d. ` m ` 
IBM SystemML 
ROSS 
特 斯 拉 | 自动 驾驶 车 | ——-—] 


这 些 巨 头 公司 通过 招募 高 端 人 才 、 组 建 实验 室 等 方式 加 快 对 关键 技术 的 研发 ，Facebook 
在 2013 年 就 成 立 了 Facebook 人 工 智能 研究 实验 室 , 研究 图 像 识 别 、 语 义 识别 等 人 工 智能 技术 。 
K 1-3 列 出 了 各 大 巨头 的 AI 实验 室 的 名 称 、 成 立时 间 和 简介 。 


表 1-3 美国 Al 巨头 公司 的 实验 室 布局 





























Facebook Facebook 人 工 智能 研究 | 2013 研究 图 像 识 别 、 语 义 识 别 等 人 工 智 能 技术 ， 支 持 
实验 室 读 懂 照 片 、 识 别 照片 中 的 好 友 、 智 能 筛选 上 传 昭 
(FAIR) 片 、 回 答 简单 问题 等 功能 
应 用 机 器 学 习 实验 室 | 2013 将 人 工 智能 和 机 器 学 习 领 域 的 研究 成 果 应 用 到 
(AML) Facebook 现 有 产品 中 
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除了 成 立 实验 室 以 外 ,巨头 们 通过 投资 和 并 购 储 备 人 工 智能 研发 人 才 和 技术 。 其 中 , 谷歌 
于 2014 年 以 4 亿美 元 收购 了 深度 学 习 算法 公司 DeepMind， 该 公司 开发 的 AlphaGo 为 谷歌 的 
人 工 智能 添上 了 浓墨重彩 的 一 笔 。 根 据 CB Insights 的 研究 报告 (2011 年 -2016 年 人 工 智能 主 
要 收购 事件 ) ,谷歌 自 2012 年 以 来 共 收 购 了 11 家 人 工 智能 创业 公司 ,是 所 有 科技 巨头 中 最 多 
HU, E, Facebook 和 英特尔 分 别 排名 第 二 、 第 三 和 第 四 ， 标 的 集中 于 计算 机 视觉 、 图 像 识 
别 、 语 义 识别 等 领域 。 最 近 几 年 六 大 科技 巨头 并 购 和 投资 案例 如 表 1-4 所 示 。 














表 1-4 科技 巨头 并 购 和 投资 案例 


交易 时 间 | 初创 公司 | 产品 /服务 收购 投资 意图 

利用 AI 技术 将 非 结构 化 数据 转换 成 | 让 Siri 可 以 理解 更 多 信息 ， 
可 用 的 结构 化 数据 处 理 更 多 用 户 指令 
专注 于 面部 识别 技术 ， 其 应 用 可 以 从 | 补充 iPhone 现 有 的 Touch ID 
多 个 平台 中 为 用 户 选 出 最 好 的 照片 | 指纹 扫描 器 认证 系统 

主要 研发 Turi 机 器 学 习 平 台 、 





2017.5 Lattice Data 





2017.3 RealFace 


GraphLab Create 和 Turi 预测 服务 ， | 强化 Siri, App Store 等 多 款 
被 应 用 于 推荐 、 欺 诈 检 测 、 情 感 分 | 服务 的 产品 体验 
析 等 多 个 方面 


"" 帮助 用 户 挑选 更 好 的 应 用 ， 
Emotient 评估 用 户 的 购物 体验 ， 更 精 
准 地 推送 广告 等 
用 户 发 出 的 指令 更 自然 


智能 手机 端的 人 工 智能 图 像 分 类 系 | 对 用 广 数据 的 利用 最 小 化 ， 
统 开发 商 
m 






并 将 尽 可 能 多 的 技术 放 在 手 
机 端 


加 速 AI 技术 的 分 享 和 推广 


Perceptio 


数据 发 掘 和 预测 竞赛 在 线 平台 ， 
据 科 学 家 、 机 器 学 习 开发 者 社区 
开发 聊天 机 器 人 框架 ， 面 向 开发 者 
提供 语音 识别 、 意 图 识别 、 上 下 文 
管理 等 功能 


强化 Google Assistant 语音 
识别 功能 


视觉 搜索 公司 ， 开 发 以 机 器 学 习 为 

基础 的 手机 图 像 识 别 技术 ， 可 通过 | 提高 图 像 识 别 技术 实力 
照片 识别 书籍 、CD、 海 报 等 

营销 资源 管理 AI 企业 ， 为 企业 解决 











2051 | Sranata — | 大 范围 的 数据 驱动 营销 问题 
| 帮助 开发 者 构建 实时 性 应 用 的 后 端 | 进一步 优化 谷歌 的 公共 云 能 
mease f 数据 库 公司 力 
Dak Blue | 脱胎 于 牛津 大 学 ， 专 注 于 计算 机 深 
2014.10 us 度 学 习 及 自然 语言 处 理 布局 通用 AI， 争 夺 AI 人 才 
aoao | Vet 脱胎 于 牛津 大 学 ， 专 注 于 计算 机 深 | 布局 通用 AL， 争夺 AT 人才 











Factory 度 学 习 及 视觉 识别 
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公司 | 交易 时 间 | 初创 公司 收购 投资 意图 


通过 分 析 用 户 聊天 的 文本 信息 ， 自 
动 执行 移动 助理 的 任务 ， 如 自动 建 
立 日 程 、 预 定 餐厅 


GE) 


加 强 自身 的 消息 和 通信 服务 





Nest 


通过 AI 技术 分 析 Instagram 图 片 ， 
对 城市 特点 进行 分 析 ， 为 旅行 提供 
城市 指南 服务 

智能 家 居 公 司 ， 产 品 有 恒温 器 和 烟 
筋 、 一 氧化 碳 探测 器 等 


提高 图 像 识 别 技术 实力 


布局 智能 家 居 ， 将 Google 
Assistant 与 Nest 设备 相连 接 





Deep Mind 


AlphaGo 的 开发 者 ， 专 注 于 深度 学 
习 和 神经 科学 研究 


布局 通用 AI， 争 夺 AI 人 才 








DNNresearch 


Maluuba 


SwiftKey 


Equivio 


Harvest.ai 


专注 于 深度 学 习 和 神经 网 络 研究 ， 
由 深度 学 习 开 山 鼻 祖 Geoffrey 
Hinton 创立 

擅长 问答 及 决策 系统 的 深度 学 习 与 
强化 学 习 ， 试 图 解决 语言 理解 方面 
的 一 些 根本 性 问题 ， 包 括 记 忆 能 
力 、 常 识 推理 能 力 、 好 奇 心 和 决策 
能 力 等 

提供 基于 AI 算法 的 会 议 行程 安排 
服务 


全 球 最 大 的 职业 社交 网 站 ， 月 活跃 
用 户 高 达 1.06 亿 


专注 移动 聊天 开发 ， 提 供与 第 三 方 
开发 商 的 融合 和 聊天 界面 

开发 了 利用 AI 技术 能 够 预测 用 户 输 
入 内 容 的 输入 法 

文本 分 析 服 务 技术 提供 商 ， 利 用 机 
器 学 习 让 客户 更 方便 地 进行 数据 管 
理 

使 用 机 器 学 习 分 析 公司 关键 卫 上 的 
用 户 行为 ， 在 重要 客户 数据 中 可 以 
刷新 之 前 的 识别 并 停止 有 针对 性 的 
攻击 

从 自然 语言 查询 文字 中 提取 可 操作 
的 意图 ， 引 导 用 户 直接 访问 正在 查 
找 的 产品 





公司 只 有 三 个 人 ， 没 有 任何 
实际 的 产品 和 服务 ， 属 于 人 
才 性 收购 


基于 其 运算 实力 和 在 AI 领 
域 的 人 才 储备 


将 其 技术 整合 到 Office 365 
和 智能 助理 中 

获取 大 量 员工 及 雇主 数据 ， 
通过 AI 技术 深入 挖掘 以 改 
善 产品 服务 

增强 微软 智能 语音 助理 和 
BING 的 人 机 交互 功能 

获得 SwiftKey 强大 的 AI 
队 

将 其 算法 集成 到 Office 365 
服务 中 ， 为 用 户 提供 更 智能 
的 邮件 及 文档 管理 功能 


利用 AI 技术 强化 自身 的 安 
全 服务 能 力 


优化 自己 的 搜索 技术 和 拓展 
AI 在 交互 式 商务 上 的 应 用 





2015.12 











开发 基于 类 神经 网 络 的 图 像 识别 技 
术 ， 其 应 用 软件 能 自动 分 类 和 辨别 
照片 内 容 





为 旗下 云 计 算 和 物 联 网 业务 
拓展 智能 软件 
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( 续 表 ) 

收购 投资 意图 

自动 驾驶 算法 和 芯片 提供 商 ， 专 注 
Mobileye 于 计算 机 视觉 算法 和 ADAS 芯片 技 | 布局 自动 驾驶 领域 

术 研 发 

视觉 算法 芯片 公司 ， 研 发 了 低能 耗 | 帮助 英特尔 发 展 无 人 机 、 机 

计算 机 视觉 芯片 组 Myriad 系列 等 。 | 器 人 、 虚 拟 现实 等 市 场 

为 深度 学 习 提 供 云 计算 平台 ， 开 发 | ，。 

者 可 以 使 用 该 平台 为 自己 开发 更 智 il NEN 

能 的 应 用 i 











计算 机 视觉 公司 ， 面 向 驾驶 员 辅 助 | 加 强 在 汽车 和 视频 等 物 联 网 
系统 的 软件 和 服务 细 分 市 场 的 投入 
通过 模仿 人 类 大 脑 工 作 方式 的 算法 


让 人 工 智能 进入 一 般 的 电子 


2015.10 来 从 庞大 的 数据 集 里 提取 有 用 的 信 产品 


息 
专注 于 自然 语言 识别 技术 ， 其 开发 
Indisys 的 基于 对 话 的 系统 拥有 Web 及 移动 

版 本 

帮助 机 器 人 实现 室内 外 导航 ， 可 以 - Am 
2016.11 |ZurichEye | 用 于 内 置 场景 追踪 ， 对 于 虚拟 现实 om SUN 
来 说 是 非常 重要 的 il 
Facebook 热门 换 脸 应 用 MSQRD 的 开发 商 在 视频 领域 实现 创新 
让 开发 者 共享 语法 和 训练 数据 ， 帮 

iara 帮助 Messenger 创建 语音 输 

E ES 入 模式 ， 提 升 语意 理解 水 平 


总 的 来 说 ， 这 些 巨头 通过 收购 拼 抢 入 才 ， 强 化 技术 储备 ;同时 争 相 开源 ， 构 建生 态 ， 人 工 
智能 的 平台 化 和 云端 化 将 成 为 全 球 发 展 的 潮流 。 谷 歌 是 全 球 在 人 工 智能 领域 投入 最 大 且 整 体 实 
力 最 强 的 公司 ， 谷 歌 希望 利用 开源 系统 构建 AI 生态 ， 覆 盖 更 多 用 户 使 用 场景 ， 从 互联 网 、 移 
动 互联 网 等 传统 业务 延伸 到 智能 家 居 、 自 动 驾 驶 、 机 器 人 等 领域 , 积累 更 多 数据 信息 。 亚 马 进 
是 在 B WA C 端 共同 发 力 的 ， 通 过 智能 音箱 和 语音 助手 引领 人 工 智能 消费 级 行业 生态 。 另 一 
方面 ， 亚 马 逊 用 人 工 智能 深化 AWS 云 计 算 服务 ， 赋 能 全 行业 。Facebook 在 人 工 智能 领域 的 布 
局 主要 围绕 其 用 户 的 社交 关系 和 社交 信息 来 展开 。 

除了 正面 竞争 外 ， 巨 头 们 在 人 工 智能 领域 也 积极 合作 。2016 年 9 H, Facebook. With, 
谷歌 、IBM、 微 软 五 大 巨头 成 立 了 非 营利 组 织 Partnership on AI (人 工 智能 合作 组 织 ) ， 旨 在 
分 享 AI 领域 的 最 佳 技术 实践 , 促进 公众 对 AI 的 理解 , 挖掘 可 以 促进 社会 福 社 的 AI 研究 领域 ， 
并 提供 一 个 公开 参与 的 平台 。 


自主 开发 和 掌握 语音 识别 技 
术 
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Fani 


<> 国内 AI 现状 


在 国外 科技 巨头 〈 如 微软 、 谷 歌 、Facebook 等 ) 积极 布局 人 工 智能 领域 的 同时 ， 国 内 互 
联网 巨头 BAT 及 各 个 科技 公司 也 争 相 切入 人 工 智 能 产业 ， 充 分 展示 了 国内 科技 领头 羊 对 于 未 
来 市 场 的 敏锐 嗅觉 。 国 内 AI 公司 基本 集中 在 应 用 层 ， 在 计算 机 视觉 、 语 音 识别 等 领域 取得 了 
一 定 的 成 绩 , 在 人 脸 识 别 、 人 脸 支付 、 语音 识别 、 智能 医疗 、 智 能 家 居 等 领域 的 应 用 发 展 迅速 。 
表 1-5 列举 了 国内 BAT 公司 在 人 工 智能 上 的 布局 。 


表 1-5 国内 BAT 公司 的 Al 布局 


应 用 层 基础 层 
消费 级 产品 EH 
Wechat AI, Dreamwriter 写作 机 
器 人 、 围 棋 AI 产品 “ 绝 艺 ”、 
天 天 ?图 


a 智能 客 
在 国内 的 科技 巨头 公司 中 ,百度 成 立 了 深度 学 习 实验 室 , 研究 方向 包括 深度 学 习 、 计 算 机 


视觉 、 机 器 人 等 领域 。 表 1-6 列 出 了 BAT 的 AI 实验 室 的 名 称 、 成 立时 间 和 简介 。 
表 1-6 BAT 公司 的 Al 实验 室 布局 


研究 方向 包括 深度 学 习 、 机 器 学 习 、 机 器 翻译 、 人 机 交互 、 


智能 搜索 引擎 “ 云 搜 ” 和 中 文 | 腾讯 云 平台 、 
语义 平台 “文智 ”、 优 图 Angel、NCNN 





























en 图 像 搜索 、 图 像 识 别 、 语 音 识 别 等 。 相关 产品 包括 百度 识 图 、 
百度 无 人 车 、 深 度 学 习 平台 Paddle-Paddle 等 

TE AI Lab i i 

Svat 深度 学 习 、 系 统 学 习 、 软 硬件 结合 研究 

AI Lab 消费 级 人 工 智能 产品 研究 
在 内 容 、 游 戏 、 社 交 和 平台 工具 型 AI 四 个 方向 进行 探索 ， 

腾讯 AI Lab 研究 方向 包括 机 器 学 习 、 计 算 机 视觉 、 语 音 识别 、 自 然 语言 
处 理 的 基础 研究 ， 及 其 应 用 领域 的 探索 

腾讯 专注 于 图 像 处 理 、 模 式 识 别 、 机 器 学 习 、 数 据 挖掘 等 领域 的 

VENERE T 技术 研发 和 业务 落地 

腾讯 AI Lab- 西 雅 ii a 

图 AI 实验 室 2017 专注 于 语音 识别 、 自 然 语义 理解 等 领域 的 基础 研究 








北京 、 上 海 、 广 州 和 深圳 正在 积极 抢 抓 全 球 人 工 智 能 产业 发 展 的 重大 机 遇 ， 一 些 城市 出 台 了 
AI 的 行动 计划 ， 成 立 了 AI 研究 院 。 例 如 ，2017 年 10 月 ， 北 京 市 出 台 《 中 关 村 国家 自主 创新 
示范 区 人 工 智 能 产业 培育 行动 计划 (2017-2020 4E) ) ; 2017 年 12 月 ， 广 州 国际 人 工 智 能 产 
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业 研究 院 在 广州 南沙 自 贸 区 挂牌 ， 中 国 科学 院 院 士 戴 汝 为 受聘 为 广州 AI 研究 院 专家 顾问 委员 
会 主席 ;2018 年 2 月 ， 北 京 前 沿 国际 人 工 智能 研究 院 正式 宣布 成 立 ， 李 开 复 出 任 研究 院 首 任 
院 长 。 与 互联 网 类 似 ， 中 国 将 会 成 为 AI 应 用 的 最 大 市 场 ， 拥 有 丰富 的 AI 应 用 场景 、 全 球 最 
多 的 用 户 和 全 球 最 庞大 的 数据 资源 。 

除了 行业 巨头 公司 逐渐 完善 自身 在 人 工 智能 的 产业 链 布局 外 ,不 断 涌 现 出 的 创业 公司 正在 
垂直 领域 深耕 深 挖 。 未 来 ，“ 人 工 智 能 +” 有 望 成 为 新 业态 。 值 得 指出 的 是 ， 国 内 人 工 智能 领 
域 主要 的 问题 在 于 教育 人 才 培 养 的 速度 与 行业 发 展 速度 不 匹配 。 根据 麦肯锡 《中 国人 工 智能 的 
未 来 之 路 》 报 告 “中 国 只 有 不 到 30 所 大 学 的 研究 实验 室 专 注 于 人 工 智 能 ， 输 出 人 才 的 数量 
远 远 无 法 满足 人 工 智能 企业 的 用 人 需求 。 此 外 , 中 国 的 人 工 智能 科学 家 大 多 集中 于 计算 机 视觉 
和 语音 识别 等 领域 ， 造 成 其 他 领域 的 人 才 相对 匮乏 。” 

















1.5 Ar 与 云 计 算 和 大 数据 的 关系 


AI 是 今后 产业 发 展 的 巨大 引擎 。 无 论 是 国内 的 BATJ， 还 是 美国 的 谷歌 、 亚 马 逊 、 微 软 、 
Facebook、 苹 果 等 公司 ， 他 们 都 已 经 拥有 了 海量 的 云 计 算 基础 设施 。 它 们 各 自 推出 的 AI 功能 
都 是 为 了 给 予 云端 客户 更 强 的 数据 处 理 能 力 , 从 而 构建 基于 人 工 智能 的 云 服务 , 这 符合 未 来 云 
服务 的 “ 云 +AI” 发 展 趋势 。 例 如 ， 亚 马 逊 利用 AWS 云 正 尝试 为 云端 客户 提供 高 效 的 AI 解决 
方案 。 谷 歌 寄 希望 于 借 AI 赶 超 AWS。 基 于 微软 云 平台 Azure 的 智能 API 涵盖 了 五 大 方向 的 
人 工 智能 技术 ， 包 括 计算 机 视觉 、 语 音 、 语 言 、 知 识 、 搜 索 五 大 类 AP. 

大 数据 与 人 工 智 能 相辅相成 ， 在 人 工 智能 的 加 持 下 ， 海 量 的 大 数据 对 算法 模型 不 断 训练 ， 
又 在 结果 输出 上 进行 优化 , 从 而 使 人 工 智能 向 更 为 智能 化 的 方向 进步 , 大 数据 与 人 工 智能 的 结 
合 将 在 更 多 领域 中 击败 人 类 所 能 够 做 到 的 极限 。 美 国 巨头 的 人 工 智能 应 用 主要 围绕 大 数据 挖 
JE, Wl Facebook 建造 能 够 理解 海量 数据 的 人 工 智能 机 器 。AI 在 行业 应 用 中 更 为 广泛 ， AI 的 
火热 是 与 最 近 几 年 大 数据 获得 重大 的 突破 紧密 相关 的 。 

大 数据 与 云 计算 的 关系 如 下 : 


€ ”数据 是 资产 ， 云 为 数据 资产 提供 存储 、 访 问 和 计算 。 

© ”当前 云 计算 更 偏重 海量 存储 和 计算 , 以 及 提供 的 云 服务 , 运行 云 应 用 。 但 是 缺乏 盘活 
数据 资产 的 能 力 ， 挖 握 价 值 性 信息 和 预测 性 分 析 , 为 国家 、 企 业 、 个 人 提供 决策 方案 
和 服务 ， 是 大 数据 的 核心 议题 ， 也 是 云 计 算 的 最 终 方向 。 





1.6 AI 技术 路 线 


AI 的 常见 开发 框架 包括 谷歌 的 TensorFlow、Facebook 的 Torch、 微 软 的 CNTK 以 及 IBM 
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的 SystemML 等 , 这 些 框 架 都 是 开源 软件 .2015 年 , 谷歌 发 布 第 二 代 人 工 智 能 系统 TensorFlow， 
并 宣布 将 其 开源 。TensorFlow 包括 很 多 常用 的 深度 学 习 技术 、 功 能 和 例子 的 框架 ， 本 书 用 3 章 详 
细 介 绍 TensorFlow。 

2013 年 ， 卷 积 神经 网 络 发 明 者 Yann LeCun 加 入 Facebook， 带 领 公司 的 图 像 识 别 技术 和 
自然 语言 处 理 技术 大 幅 提 升 。Facebook 的 深度 学 习 框 架 是 在 之 前 的 Torch 基础 上 实现 的 ， 于 
2015 年 12 月 开源 。 表 1-7 列 出 了 各 个 公司 所 提供 的 AI 开源 平台 。 


R17 Al 开源 平台 列表 
公司 成 立时 间 | 平台 名 称 | 简介 
Google 2015.11 TensorFlow | 谷歌 的 第 二 代 深 度 学 习 系统 ， 同 时 支持 多 台 服 务 器 
Microsoft | 2015.11 DMTK 一 个 将 机 器 学 习 算 法 应 用 在 大 数据 上 的 工具 包 


可 实现 定制 算法 、 多 模式 编写 、 自 动 优化 








深度 学 习 Torch 框架 ， 鼓 励 模块 化 编程 
| Microsoft | 2016.01 |cwrk | 通过 一 个 有 向 图 将 神经 网 络 描述 为 一 系列 计算 步骤 


能 同时 支持 两 个 GPU 参与 运行 深度 学 习 系统 





1.7 AI 国家 战略 


Á 2016 年 起 , 人 工 智 能 领域 建设 已 上 升 至 国家 战略 层面 , 相关 政策 进入 全 面 爆发 期 。2016 
年 5 月， 国家 发 改 委 在 《“ 互 联网 +” 人 工 智能 三 年 行动 实施 方案 》 中 明确 提出 ， 到 2018 年 ， 
国内 要 形成 千 亿 元 级 的 人 工 智能 市 场 应 用 规模 。2017 年 7 月 ， 国 务 院 印发 关于 《新 一 代 人 工 
智能 发 展 规划 的 通知 》。 未 来 几 年 内 ， 人 工 智能 产业 有 望 持续 获得 国家 的 大 力 支持 ,加速 人 工 
智能 需求 的 落地 。 

2017 年 12 月 14 日 ， 工 业 和 信息 化 部 正式 印发 《促进 新 一 代 人 工 智 能 产业 发 展 三 年 行动 
计划 (2018-2020 年 ) 》， 提 出 以 信息 技术 与 制造 技术 深度 融合 为 主线 ， 以 新 一 代 人 工 智能 技 
术 的 产业 化 和 集成 应 用 为 重点 , 推进 人 工 智 能 和 制造 业 深度 融合 , 加 快 制造 强国 和 网 络 强国 建 
设 。 该 计划 按照 “系统 布局 、 重 点 突破 、 协 同 创新 、 开 放 有 序 ”的 原则 ， 提 出 了 四 方面 的 主要 
任务 : 一 是 重点 培育 和 发 展 智能 网 联 汽车 、 智 能 服务 机 器 人 、 智 能 无 人 机 、 医 疗 影像 辅助 诊断 
系统 、 视 频 图 像 身份 识别 系统 、 智 能 语音 交互 系统 、 智 能 翻译 系统 、 智 能 家 居 产 品 等 智能 化 产 
品 ， 推 动 智 能 产品 在 经 济 社会 的 集成 应 用 ; 二 是 重点 发 展 智能 传感器 、 神 经 网 络 芯片 、 开 源 开 
放 平 台 等 关键 环节 ， 夯 实 人 工 智能 产业 发 展 的 软 硬 件 基础 ; 三 是 深化 发 展 智能 制造 ， 鼓 励 新 一 
代 人 工 智能 技术 在 工业 领域 各 环节 的 探索 应 用 , 提升 智能 制造 关键 技术 装备 创新 能 力 , 培育 推 
广 智能 制造 新 模式 ; 四 是 构建 行业 训练 资源 库 、 标 准 测试 及 知识 产权 服务 平台 、 智 能 化 网 络 基 
础 设施 、 网 络 安全 保障 等 产业 公共 支撑 体系 ， 完 善人 工 智能 发 展 环境 。 

















] .号 Ai 的 历史 发 展 


简单 来 说 , 把 人 工 智能 发 展 的 60 年 分 为 两 个 阶段 。 第 一 阶段 : 前 30 年 以 数理 逻辑 的 表达 
与 推理 为 主 。 第 二 阶段 : 后 30 年 以 概率 统计 的 建 模 、 学 习 和 计算 为 主 。 这 两 个 阶段 体现 了 三 
次 人 工 智 能 的 发 展 高 潮 〈 对 AI 发 展 历史 不 感 兴趣 的 读者 ， 可 以 直接 跳 过 本 节 的 内 容 ) 。 

人 工 智 能 的 萌芽 可 以 追溯 到 20 世纪 三 四 十 年 代 。 阿兰 “图 灵 是 英国 的 数学 家 和 密码 专家 。 
“R” 期 间 , 他 提出 了 许多 破译 德军 密码 的 方法 ， 其 中 最 著名 的 是 发 明了 能 够 破译 恩 尼 格 码 
(Enigma) 密码 机 设置 的 机 电 装置 。 恩 尼 格 码 密码 机 的 强大 之 处 在 于 它 的 加 密 系统 变化 万 干 ， 
大 概 有 1.59 万 万 亿 种 设置 机 器 的 可 能 性 ， 如 果 靠 人 力 一 个 一 个 地 尝试 来 破解 一 条 密码 ， 花 费 
的 时 间 可 能 要 比 宇宙 存在 的 时 间 还 长 意识 到 , 仅 靠 人 力 无 法 完成 这 个 任务 ， 出 路 只 有 一 
条 ， 那 就 是 制造 另 一 台 更 强大 的 机 器 。 设计 的 解密 机 名 为 “炸弹 ”， 机 器 每 转动 一 秒 ， 就 
可 以 测试 几 百 种 密码 编译 的 可 能 性 ， 十 几 分 钟 就 可 以 完成 人 类 数 周 的 运算 量 ， 每 天 可 以 破译 
3000 多 条 恩 尼 格 码 密码 。 这 台 机 器 在 破译 截获 信息 方面 发 挥 了 重要 作用 。 

自 此 ， 图 灵 对 机 器 有 了 新 的 想法 。1950 年 ， 在 他 的 论文 《计算 机 器 与 智能 》 中 ， 开 篇 就 
提出 了 这 样 一 个 问题 : 机 器 能 思考 吗 ? 这 是 通用 电子 计算 机 刚刚 诞生 的 时 代 。 电子 计算 机 的 用 
P, 无 论 是 军 方 、 科 学 家 、 研 究 院 ， 还 是 学 生 ， 都 将 计算 机 视 为 一 台 速度 特别 快 的 数学 计算 工 
R. 很 少 有 人 去 琢磨 ,计算 机 是 否 可 以 像 人 一 样 思考 。 图 灵 却 走 在 了 所 有 研究 者 的 前 面 。 在 文 
章 中 ， 图 灵 试 图 探讨 到 底 什 么 是 会 “思考 ”的 机 器 ， 并 提出 了 一 个 判定 机 器 是 否 具有 智能 的 实 
验方 法 : 如 果 一 台 机 器 能 够 与 人 类 对 话 ， 而 不 被 辨别 出 其 机 器 的 身份 ,那么 这 台 机 器 便 具备 智 
能 。 这 就 是 著名 的 图 灵 测试 。 

图 灵 的 思想 启发 了 无 穷 的 想象 ， 让 人 们 不 断 思考 着 这 一 话题 。1956 年 ， 时 任 美国 达 特 茅 
斯 学 院 数学 助理 教授 的 约翰 。 麦 卡 锡 与 另 一 位 人 工 智能 先驱 马 文 。 明 斯 基 以 及 “信息 论 ” 创 始 
人 克 劳 德 。 香 农 一 道 作 为 发 起 人 , 邀请 各 学 科 志同道合 的 杰出 学 者 在 美国 达 特 茅 斯 学 院 一 同 控 
讨 建造 思考 的 机 器 的 命题 。 在 会 上 ， 研 究 人 员 正 式 将 该 领域 命名 为 “人 工 智能 ” (Artificial 
Intelligence) ， 将 其 确立 为 一 个 独立 的 学 科 。 他 们 表示 : “人 们 将 在 一 个 假设 的 基础 上 继续 进 
行 有 关 人 工 智能 的 研究 , 那 就 是 学 习 的 各 个 方面 或 智能 的 各 种 特性 都 能 够 实现 精确 描述 , 以 便 
我 们 能 够 制造 机 器 来 模仿 学 习 的 这 些 方面 和 特性 。 人 们 将 尝试 使 机 器 读 懂 语言 ,创建 抽象 概念 ， 
解决 人 们 目前 的 各 种 问题 ， 并 且 能 自我 完善 ”。 达 特 茅 斯 会 议 被 认为 是 人 工 智能 的 开端 。 

达 特 茅 斯 会 议 之 后 的 数 年 是 人 工 智能 大 发 现 的 时 代 。 研究 者 们 不 断 取得 重要 进展 , 构造 出 
了 一 系列 能 够 完成 一 些 让 以 往 的 人 们 认为 死板 的 计算 器 无 法 完成 的 任务 的 计算 机 程序 。 例 如 ， 
WS * di RR CE 50 年 代 中 期 和 60 年 代 初 开发 的 棋 类 程序 的 棋 力 已 经 可 以 挑战 具有 相 
当 水 平 的 业余 爱好 者 。 另 一 项 突破 是 感知 人 工 智能 ， 马 文 。 明 斯 基 和 西 摩尔 。 派 普 特 用 一 个 
机 械 手 臂 、 一 个 摄像 头 和 一 台 计算 机 制作 了 一 个 会 搭 积木 的 机 器 手臂 , 这 无 疑 是 计算 机 视觉 方 
面 的 一 项 壮举 。 一 个 名 为 SAINT 的 项 目 能 够 解 开 大 学 一 年 级 课程 水 平 的 微 积分 中 的 积分 问题 。 
约瑟夫 。 戴 森 鲍 姆 发 明了 一 个 名 叫 ELIZA 的 聊天 机 器 人 ， 可 以 实现 简单 的 人 机 对 话 。 对 许多 
人 而 言 ， 这 一 阶段 开发 出 的 程序 堪 称 神奇 ， 当 时 大 多 数 人 都 无 法 相信 机 器 能 够 如 此 “智能 ”。 
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研究 者 们 在 私下 的 交流 和 公开 发 表 的 论文 中 表达 出 了 相当 乐观 的 情绪 。1965 年 ， 赫 伯 特 。 西 
蒙 称 ， 用 不 了 20 年 ， 机 器 就 能 够 完成 人 类 能 做 的 任何 工作 。 不 久 以 后 ， 马 文 。 明 斯 基 补 充 道 : 
“我 们 这 一 代 人 能 够 大 体 上 解决 创造 人 工 智能 的 问题 。” 

伴随 着 初期 的 显著 成 果 和 乐观 情绪 的 弥漫 , 在 麻 省 理工 学 院 、 卡 内 基 梅 隆 大 学 、 斯 坦 福 大 
学 、 爱 丁 堡 大 学 建立 的 人 工 智 能 项 目 都 获得 了 来 自 ARPA〔 即 后 来 的 DARPA， 美 国 国防 高 等 
研究 计划 署 ) 等 政府 机 构 的 大 笔 资 金 。 然 而 ， 这 些 投 入 却 并 没有 让 当时 的 乐观 预言 得 以 实现 ， 
从 20 世纪 70 年 代 开始 ， 人 工 智能 的 发 展开 始 出 现 问 题 。 人 们 发 现 ， 即使 是 最 杰出 的 人 工 智能 
程序 也 只 能 解决 它们 尝试 解决 的 问题 中 最 简单 的 一 部 分 , 稍微 超出 范围 就 无 法 应 对 。 这 里 面 主 
要 存在 几 方 面 的 局 限 。 一 是 当时 的 计算 机 有 限 的 内 存 和 处 理 速度 不 足以 解决 任何 实际 的 人 工 智 
能 问题 ; 二 是 有 很 多 计算 复杂 度 以 指数 程度 增加 ， 这 些 问题 的 解决 需要 近乎 无 限 长 的 时 间 ， 所 
以 成 为 不 可 能 完成 的 计算 任务 ; 三 是 数据 量 的 缺失 , 很 多 重要 的 人 工 智能 应 用 (例如 机 器 视觉 
和 自然 语言 处 理 ) 都 需要 大 量 对 世界 的 认识 信息 , 在 那个 年 代 , 没有 人 能 够 做 出 如 此 巨大 的 数 
据 库 ,也 没 人 知道 一 个 程序 怎样 才能 学 到 如 此 丰富 的 信息 。 人 工 智 能 项 目的 停滞 , 使 人 们 对 该 
领域 的 热情 渐渐 冷却 下 来 ， 大 幅 缩减 的 资助 使 其 首次 进入 了 “人 工 智能 的 冬天 ”。 

在 通用 问题 求解 机 制 遭 到 失败 之 后 , 人 们 开始 尝试 针对 特定 领域 , 使 用 更 强 有 力 的 领域 相 
关 的 知识 ， 以 允许 更 加 深入 的 推理 步 又， 对付 该 领域 中 出 现 的 特殊 情况 。 科 学 家 们 认为 ，70 
年 代 的 教训 是 智能 行为 与 知识 处 理 关 系 非 常 密切 ， 有 时 还 需要 特定 任务 领域 非常 细致 的 知识 。 
例如 , 一 台 应 用 于 神经 系统 科学 的 电脑 必须 像 合 格 的 神经 系统 科学 家 一 样 ， 了 解 该 学 科 的 相关 
概念 、 事 实 、 表 述 、 研 究 方法 、 模 型 、 隐 喻 和 其 他 方面 。 要 创造 出 能 够 解决 现实 问题 的 人 工 智 
能 ， 需 要 一 台 能 够 将 推理 和 知识 相 结合 的 机 器 ， 一 类 名 为 “专家 系统 ”的 人 工 智能 程序 应 运 而 
E. 专家 系统 的 能 力 来 源 于 它们 存储 的 专业 知识 , 能 够 根据 某 领域 一 个 或 多 个 专家 提供 的 知识 
和 经 验 进行 推理 和 判断 ， 模 拟人 类 专家 的 决策 过 程 ， 回 答 或 解决 该 领域 的 问题 。 由 爱德华 。 费 
根 鲍 姆 创造 的 DENDRAL 是 世界 上 第 一 个 专家 系统 ， 它 可 以 推断 化 学 分 子 结构 。 另 一 个 类 似 
的 项 目 名 为 MYCIN, 能 够 诊断 血液 传染 病 , 表现 的 甚至 比 初级 医生 要 好 .DENDRAL 和 MYCIN 
都 只 是 实验 室 的 实验 ， 并 没有 真正 应 用 到 现实 世界 。1980 年 ， 卡 内 基 梅 隆 大 学 为 数字 设备 公 
司 DEC 设计 了 一 个 名 为 XCON 的 专家 系统 ， 其 目的 是 按照 客户 的 需求 ， 帮 助 DEC 的 销售 人 
员 为 客户 配置 适合 他 们 的 计算 机 组 件 。 在 使 用 XCON 之 前 ， 由 于 销售 人 员 不 都 是 技术 专家 ， 
DEC 经 常 发 生 客户 购买 的 硬件 与 硬件 、 硬 件 与 软件 不 适 配 的 情况 ， 以 致 引起 客户 不 满 甚至 进 
行 法 律 诉 讼 。 到 1986 年 ，XCON 一 共处 理 了 80 000 条 指令 ， 准 确 率 达 到 95%~98%， 每 年 为 
DEC 节约 2500 万 美元 。 其 他 企业 很 快 也 开始 研发 和 应 用 专家 系统 ， 到 1985 年 ， 约 有 150 家 
公司 投资 10 亿美 元 开展 人 工 智能 业务 。 受 此 鼓励 ， 日 本 政府 投入 巨 资 开发 所 谓 的 第 5 代 计 算 
机 ， 其 目标 是 造 出 能 够 与 人 对 话 、 翻 译 语言 、 解 释 图 像 ， 并 且 像 人 一 样 推理 的 机 器 。 其 他 国家 
纷纷 响应 ， 向 人 工 智能 项 目 提供 资助 。 

有 趣 的 是 ， 像 马 文 。 明 斯 基 这 样 经 验 丰富 的 研究 者 却 在 回避 对 专家 系统 热烈 的 追捧 ， 预 计 
不 久 后 ， 人 们 将 转向 失望 。 事实 被 他 们 不 幸 言 中 ， 从 1987 年 开始 ,苹果 和 IBM 生产 的 个 人 电 
脑 性 能 不 断 提升 ， 这 些 计 算 机 没有 用 到 AI 技术 ,但 性 能 上 却 超过 了 专家 系统 所 使 用 的 价格 昂 
贵 的 机 器 。 相 比 于 现代 个 人 电脑 ，XCON 等 最 初 大 获 成 功 的 专家 系统 维护 费用 居 高 不 下 ， 难 
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以 升级 ， 实 用 性 仅 局 限于 某 些 特定 的 场景 ， 专 家 系统 风光 不 再 。 资 本 又 一 次 迅速 蒸发 ,政府 补 
助 消失 得 无 影 无 踪 ， 人 工 智 能 的 第 二 个 冬天 到 来 了 。 

人 工 智能 这 一 次 遭遇 的 寒流 与 第 一 次 相 比 有 过 之 而 无 不 及 ,人 们 开始 思考 人 工 智能 到 底 往 
何 处 走 ， 人 工 智能 研究 者 是 否 以 正确 的 方式 工作 。 在 早期 的 人 工 智 能 研究 里 ， 智 能 最 重要 的 特 
征 是 解决 那些 困难 到 连 高 学 历 的 人 都 觉得 有 挑战 性 的 任务 , 例如 象棋 、 数 学 定理 证 明和 解决 复 
杂 的 代数 问题 。 至 于 四 五 岁 的 小 孩 就 可 以 解决 的 事情 ， 例 如 用 眼睛 区 分 咖啡 杯 和 一 张 椅子 、 用 
腿 自 由 行走 ,或 者 发 现 一 条 可 以 从 卧室 走 到 客厅 的 路 径 ， 这 些 都 被 认为 是 不 需要 智慧 的 。 正 因 
为 如 此 , 早期 的 人 工 智能 研究 者 对 制造 出 会 思考 的 机 器 抱 着 十 分 乐观 的 态度 , 他们 认为 ， 当 几 
乎 解决 了 逻辑 和 代数 这 样 对 于 一 般 人 困难 的 问题 时 , 容易 的 问题 例如 辨识 人 脸 、 在 房间 内 走动 
等 也 会 很 快 地 被 解决 。 但 事实 证 明 他 们 错 了 。 汉 斯 。 莫 拉 维 克 、 罗 德 尼 ， 布 鲁 克 斯 、 马 文 。 明 
斯 基 等 人 指出 ， 与 传统 的 假设 不 同 ， 人 类 所 具有 的 高 阶 智 慧 能 力 只 需要 非常 少 的 计算 能 力 , 但 
无 意识 的 技能 和 直觉 却 需要 极 大 的 运算 能 力 。 如 莫 拉 维 到 所 说 的 : “要 让 电脑 如 成 人 般 地 下 棋 
是 相对 容易 的 ， 但 是 要 让 电脑 有 如 一 岁 小 孩 般 的 感知 和 行动 能 力 却 是 相当 困难 甚至 是 不 可 能 
的 。” 于 是 , 布鲁克 斯 决定 在 人 工 智能 和 机 器 人 技术 的 研究 上 另辟蹊径 ， 从 研究 人 类 复杂 行为 
转向 研究 某 些 简单 行为 的 组 合 。 他 尝试 以 昆虫 为 灵感 ， 建 造 了 一 种 没有 辨识 能 力 ， 只 是 依靠 感 
应 器 的 输入 来 迅速 决定 做 什么 的 机 器 。 布鲁克 斯 的 研究 大 获 成 功 ,这 种 昆虫 机 器 人 可 以 以 人 类 
的 步调 躲避 障碍 物 ， 在 房间 内 自由 地 行动 。 最 终 ， 这 种 技术 用 到 了 扫地 机 器 人 上 ， 虽 然 能 执行 
的 任务 有 限 ， 却 真正 走 入 了 人 们 的 日 常生 活 ， 人 类 与 机 器 人 有 了 第 一 次 亲密 接触 。 

与 此 同时 ， 一 派 名 为 “机 器 学 习 者 ”的 计算 机 科学 家 向 传统 人 工 智能 发 出 质疑 的 声音 。 该 
学 派 不 相信 逻辑 推理 是 获取 真理 的 最 佳 途径 , 而 是 采用 基于 统计 模型 的 研究 方法 。 类似 于 专家 
系统 这 样 的 系统 需要 工程 师 充当 各 领域 专家 的 角色 ,将 知识 提炼 成 计算 机 能 读 懂 的 规则 后 编 入 
系统 架构 ,这 样 的 系统 需要 被 不 断 地 更 新 来 适应 新 的 任务 , 被 认为 不 能 自动 学 习 知 识 。 机 器 学 
习 理 论 的 目的 是 设计 和 分 析 一 些 让 计算 机 可 以 自动 “学 习 ” 的 算法 , 想 让 计算 机 能 够 透 过 大 量 
历史 数据 学 习 到 规律 ,从 而 对 新 的 数据 进行 识别 或 者 对 未 来 做 预测 。 由 于 人 们 对 人 工 智能 开始 
抱 有 客观 理性 的 认 知 ， 人 工 智能 又 产生 了 一 个 新 的 繁荣 期 。 最 早 的 结果 为 ，1997 年 ，IBM 的 超 
级 计算 机 深蓝 (Deep Blue》 战 胜 世 界 排名 第 一 的 世界 象棋 大 师 盖 瑞 。 卡 斯 帕 罗 夫 ， 让 人 工 智能 
重新 回 到 了 公众 的 视野 。 从 2006 年 开始 ， 随 着 一 种 名 为 “深度 学 习 ” 技 术 的 成 熟 ， 加 上 计算 机 
运算 速度 的 大 幅 增长 ， 还 有 互联 网 时 代 积累 起 来 的 海量 数据 ， 人 工 智能 迎 来 了 第 三 次 热潮 。 

深度 学 习 是 机 器 学 习 的 一 种 ,其 核心 计算 模型 一 一 人 工 神经 网 络 源 自 于 对 大 脑 结构 的 深刻 
理解 。 人 类 大 脑 通过 神经 元 的 连接 来 传递 和 处 理 信息 ,人工 神经 网 络 的 模型 就 借鉴 了 人 脑 的 这 
种 机 制 。 这 种 想法 早 在 20 世纪 50 年 代 就 被 提出 过 , 但 很 快 因为 无 法 实际 工作 而 衰落 。 但 杰 弗 
瑞 。 辛 顿 等 人 并 没有 放弃 对 神经 网 络 的 研究 , 他 们 坚信 实现 机 器 智能 的 密码 就 隐藏 在 这 一 层 层 
互相 连接 的 神经 元 中 。 经 过 30 多 年 的 耕耘 ， 终 于 在 2006 年 ， 辛 顿 带领 他 的 团队 发 表 了 《一 种 
深度 置信 网 络 的 快速 学 习 算法 》 及 其 他 几 篇 重要 论文 ， 第 一 次 提出 了 “深度 学 习 ” 的 概念 ， 突 
破 了 此 前 人 工 智能 在 算法 上 的 瓶颈 。 经 过 不 断 地 优化 ， 深 度 学 习 开 始 在 图 像 识别 上 大 放 异 彩 。 
2012 年 ， 在 代表 计算 机 图 像 识别 最 前 沿 发 展 水 平 的 ImageNet 竞赛 中 ， 辛 顿 团队 参赛 的 算法 模 
型 突破 性 地 将 图 片 识别 的 错误 率 降低 了 一 半 , 这 是 人 工 智能 发 展 史上 一 个 了 不 起 的 里 程 碑 。 到 
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2014 年 ， 基 于 深度 学 习 的 计算 机 程序 在 图 像 识别 上 的 准确 率 已 经 超过 人 了 眼 识别 的 准确 率 。 机 
器 终于 进化 出 了 视觉 ， 第 一 次 看 见 了 世界 。 随 着 机 器 视觉 领域 的 突破 ， 以 深度 学 习 为 基础 的 人 
工 智能 开始 在 语音 识别 、 数 据 挖掘 、 自 动 驾驶 、 机 器 翻译 等 不 同 领域 迅速 发 展 ， 走 进 了 产业 的 
真实 应 用 场景 。2016 年 ，AlphaGo 的 不 可 阻挡 ， 让 人 工 智能 进入 公众 的 视线 ， 人 工 智能 迅速 
升温 ， 成 为 政府 、 产 业界 、 科 研 机 构 以 及 消费 市 场 竞相 追逐 的 对 象 。 世 界 各 国 纷纷 将 人 工 智 能 
作为 国家 战略 ， 加 紧 出 台 规 划 和 政策 ， 围 绕 核心 技术 、 顶 尖 人 才 、 标 准 规范 等 强化 部 署 ， 力 图 
在 新 一 轮 国际 科技 竞争 中 掌握 主导 权 。 企业 将 人 工 智能 作为 未 来 的 发 展 方向 积极 布局 , 资本 已 
经 把 人 工 智能 作为 风口 大 力 投入 , 围绕 人 工 智能 的 创新 创业 也 在 不 断 涌现 。 经 过 60 年 的 发 展 ， 
人 工 智能 终于 从 技术 走向 了 应 用 ,渗透 到 人 类 生活 的 各 个 方面 。 未 来 ， 人 工 智能 将 深刻 地 改变 
人 类 的 生产 和 生活 方式 。 
图 1-10 总 结 了 人 工 智能 不 同 的 研究 领域 与 人 类 智能 中 的 各 种 能 力 的 对 应 关系 。 






































强化 学 习 
= 监督 学 习 = 
机 器 学 习 x 深度 学 习 » 学 习 能 力 
非 监 督学 习 
文本 生成 
—— 问答 ER 
自然 语言 处 理 P 文本 分 类 > 语言 能 力 
机 器 翻译 
语音 转换 文本 
语言 » 
文本 转换 语音 
» » 感知 能 力 » 
— > 图 像 识别 
i 计算 机 视觉 
自动 推理 » 推理 能 力 
知识 表示 > 记忆 能 力 
规划 能 力 > 规划 能 力 


图 1-10 ”人工 智 能 与 人 类 智能 的 比 对 
表 1-8 总 结 了 人 工 智能 发 展 的 脉络 及 其 标志 事件 。 


表 1-8 人 工 智 能 发 展 的 脉络 及 其 标志 事件 
标志 事件 
达 特 茅 斯 会 议 ， 首 次 提出 了 “人 工 智 能 ”的 概念 
Frank Rosenblatt 提出 了 “感知 器 (Perceptron) ”， 这 是 第 一 个 用 算法 来 精确 定 
义 两 层 的 神经 网 络 ， 是 日 后 许多 神经 网 络 模型 的 始祖 


第 一 次 浪潮 





(1956-1974) 





Joseph Weizenbaum 开发 了 互动 程序 ELIZA， 是 一 个 理解 早期 语言 的 计算 机 程序 
1964 Daniel Bobro 开发 了 自然 语言 理解 程序 “STUDENT” 





第 一 次 寒冬 
(1974-1980) 








22 


第 1 章 ”人工 智能 概述 


( 续 表 ) 
| 发 展 阶段 — [ee | 标志 事件 
CMU 为 DEC 公司 研发 了 “专家 系统 ”, 帮助 其 每 年 节约 了 4000 万 美元 的 费用 ， 
受 此 鼓励 很 多 国家 再 次 投入 巨 资 开发 
用 于 人 工 神经 网 络 的 反 向 传播 算法 的 提出 ， 给 机 器 学 习 带 来 了 希望， 掀起 了 基于 
统计 模型 的 机 器 学 习 热潮 
Yann LeCun 成 功 将 反 向 传播 算法 应 用 于 多 层 神经 网 络 ， 可 以 识别 邮编 





第 二 次 浪潮 
(1980-1987) 








第 二 次 寒冬 
(1987-1993) 





IBM 研发 的 超级 计算 机 Deep Blue 击败 人 类 象棋 冠军 

Geoffrey Hinton 提出 利用 预 训练 方法 缓解 了 局 部 最 优 解 问题 ， 将 隐 含 层 推动 到 7 
层 ， 由 此 揭 开 了 深度 学 习 的 热潮 

旨 在 帮助 视觉 对 象 识别 软件 进行 研究 的 大 型 注释 图 像 数据 库 ImageNet 成 立 
谷歌 开始 研发 无 人 驾驶 汽车 ，2014 年 谷歌 在 内 华 达州 通过 了 自动 驾驶 测试 

IBM 研发 的 waston 系统 在 美国 电视 问答 节目 Jeopardy 上 击败 了 两 名 人 类 冠军 选 
Ed 

Jeff Dean 和 吴 恩 达 向 神经 网 络 展示 1000 万 来 自 YouTube 视频 随机 截取 的 图 片 ， 
发 现 它 能 识别 一 只 猫 

深度 神经 网 络 在 图 像 识别 领域 取得 惊人 的 效果 ， 在 ImageNet 评测 上 将 错误 率 从 
26% 降 低 到 15% 

微软 ResNet 获得 了 ImageNet 的 冠军 ， 错 误 率 仅 为 3.5% 

AlphaGo 战胜 围棋 世界 冠军 李 世 石 ，2017 年 化 身 Master， 再 次 出 战 横扫 棋 坛 





平稳 发 展 
(1993-2010) 








人 工 智能 浪潮 
席卷 全 球 
(2010- ) 
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语言 处 


第 2 章 
Al 产业 


:一 门 新 兴 的 技术 科学 ， 该 领域 的 研究 包括 机 器 人 、 语 言 识别 、 图 像 识别 、 自 然 
理 等 。 人 工 智 能 从 诞生 以 来 ， 理 论 和 技术 日 益 成 熟 ， 应 用 领域 也 不 断 扩大 ，AI 赋予 了 


机 器 一 定 的 视听 感知 和 思考 能 力 , 不 仅 会 促进 生产 力 的 发 展 , 而 且 会 对 经 济 与 社会 的 运行 方式 
产生 积极 作用 。 目 前 ， 随 着 数据 资源 和 运算 能 力 的 大 幅 进步 ， 深 度 学 习 算 法 、 语 音 识别 、 图 像 


识别 等 











技术 加 速 突破 。 数 据 资 源 、 运 算 能 力 、 核 心算 法 在 客观 上 构成 人 工 智 能 的 三 大 基本 要 素 
在 当前 皆 重 新 站 上 一 个 新 台阶 , 共同 推动 当下 人 工 智 能 从 计算 智能 向 更 高 


的 感知 、 认 知 智能 





发 展 ， 并 通过 衍生 出 通用 技术 、 解 决 方案 输出 以 及 具体 人 工 智能 大 规模 应 用 产品 的 落地 ， 掀 起 


人 工 智能 第 


三 次 新 浪潮 。 


人 工 智能 作为 全 球 科技 革命 和 产业 变革 的 制高点 ， 已 经 成 为 推动 经 济 社会 发 展 的 新 引擎 。 


人 工 智能 产 





是 指 一 个 以 人工 智能 关键 技术 为 核心 的 、 由 基础 支撑 和 应 用 场景 组 成 的 、 覆盖 领 


域 非常 广阔 的 产业 。 与 人 工 智能 的 学 术 定 义 不 同 , 人 工 智能 产业 更 多 的 是 经 济 和 产业 上 的 一 种 
如 图 2-1 所 示 ， 人 工 智 能 产业 分 为 三 层 : 基础 层 、 技 术 层 和 应 用 层 。 其 中 ， 基 础 层 包括 
芯片 、 大 数据 、 网 络 等 多 项 基础 设施 ,为 人 工 智能 产业 更 定 硬件 和 数据 基础 。 技 术 层 包括 计算 


概括 。 


机 视觉 





语义 识别 、 机 器 学 习 等 ， 多 数 人 工 智能 技术 公司 以 一 项 或 多 项 技术 细 分 领域 为 切 
入 点 。 而 最 终 人 





-智能 技术 能 否 落 地 且 产 生 巨 大 的 商业 价值 ， 还 需要 应 用 层 中 多 场景 的 应 用 。 


目前 ， 人 工 智能 技术 应 用 到 多 个 行业 中 ， 包 括 金 融 、 安 防 、 智 能 家 居 、 医 疗 、 机 器 人 、 自 动 驾 
驶 等 。 应 用 层 市 场 空 间 大 ， 参 与 企业 多 ， 他 们 发 展 垂直 应 用 ， 解 决 行业 痛 点 ， 实 现场 景 落地 。 


美 
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应 用 场景 包括 机 器 
AS. BERG 
技术 








基础 支撑 主要 申 数据 提供 和 计算 能 力 

4 支撑 两 部 分 组 成 ， 为 人 工 智能 的 技术 
和 产业 发 展 提供 支撑 ， 是 人 工 智能 产 
业 的 基础 设施 





图 2-1 AI 产业 层 


的 AI 产业 布局 非常 完善 ， 基 础 层 、 技 术 层 和 应 用 层 都 有 涉及 ， 尤 其 是 在 算法 、 芯 片 





和 数据 等 产业 核心 领域 , 积累 了 强大 的 技术 创新 优势 ， 各 层级 企业 数量 全 面 领先 中 国 。 相 比较 














而 言 ， 中 国 在 基础 元 器 件 、 基 础 工艺 等 方面 差距 较 大 。AI 的 目标 客户 分 为 大 众 消费 市 场 和 政 
府 企业 。 面 向 政府 企业 的 AT 商业 模式 类 似 于 传统 IT 厂商 的 角色 。 

















2.1 基础 层 


人 工 智能 产业 链 分 为 基础 层 、 技术 层 和 应 用 层 。 如 图 2-2 所 示 , 基础 层 包括 芯片 、 传 感 器 、 
大 数据 、 云 计算 等 领域 , 为 AI 提供 数据 或 计算 能 力 支 撑 。 除 了 上 述 列 出 的 领域 外 ， 其 他 领域 ， 
如 大 带宽 也 是 人 工 智能 基础 层 的 内 容 。 通过 大 带宽 提供 良好 的 基础 设施 , 以 便 在 更 大 范围 内 进 
行 数据 的 收集 ， 以 更 快 的 速度 进行 数据 的 传输 , 为 大 数据 的 分 析 、 计 算 等 环节 提供 时 间 和 数据 
量 方面 的 基本 保障 。 

















包括 GPU、FPGA 等 加 速 硬 件 与 神经 网 
络 芯 片 ， 为 深度 学 习 提供 计算 硬件 ， 
是 重点 底层 硬件 


主要 为 人 工 智能 开发 提供 云端 计算 资 
源 和 服务 ， 以 分 布 式 网 络 为 基础 ， 提 
高 计算 效率 





传感器 





王 要 对 环境 、 动 作 、 图 像 等 内 容 进行 
智能 感知 ， 这 也 包括 指纹 、 人 上 脸 、 虹 
膜 、 静 肪 等 人 体 生 物 特征 识别 硬件 及 
软件 服务 ， 是 和 人工 智 能 的 重要 数据 输 


来 源 于 各 个 行业 的 海量 数据 为 人 工 知 
能 提供 丰富 的 数据 资源 ， 大 数据 管理 
和 大 数据 分 析 软 件 或 工具 为 人 工 智 能 
产业 提供 数据 的 收集 、 整 合 、 存 储 、 
处 理 、 分 析 、 控 据 等 数据 服务 


入 和 人 机 交互 硬件 
图 2-2 基础 层 
海量 数据 是 人 工 智能 发 展 的 基础 , 各 类 信息 系统 和 传感器 的 数据 是 未 来 大 数据 的 核心 。 伴 


随 着 物 联网 的 发 展 ,数据 开始 以 指数 级 规模 增长 , 大 量 数据 应 用 到 人 工 智能 算法 模型 的 训练 中 ， 
AI 得 以 快速 发 展 。 人 工 智 能 的 技术 也 快速 应 用 到 大 数据 分 析 中 , 通过 AT 挖掘 丰富 数据 背后 的 
价值 ， 从 而 可 以 极 大 地 提高 生产 力 。 随 着 一 些 核心 基础 设施 问题 的 解决 ， 大 数据 应 用 层 正在 快 
速 构 建 。 一 方面 ， 专 门 的 大 数据 应 用 几乎 在 任何 一 个 垂直 行业 都 有 出 现 。 另 一 方面 ， 在 企业 内 
部 ， 已 经 出 现 了 各 种 AI 工具 。 例 如 ， 智 能 客服 应 用 为 用 户 提供 个 性 化 企业 服务 。 


2.1.1 芯片 产业 


随 着 中 兴 事 件 的 发 生 ， 大 家 都 高 度 重视 芯片 。 的 确 ，AI 的 “大 脑 ” 在 于 芯片 和 算法 。AI 
芯片 也 被 称 为 AI 加 速 器 或 计算 卡 ， 即 专门 用 于 处 理 人 工 智能 应 用 中 的 大 量 计算 任务 的 模块 。 
比如 ， 今 年 谷歌 的 NMT 神经 网 络 机 器 翻译 系统 ， 参 数量 达 87 亿 个 ， 需 要 105 ExaFLOPS CH 
亿 亿 次 浮 点 运算 ) 的 运算 量 。 当 前 ，AI 芯片 主要 分 为 GPU、FPGA、ASIC 和 类 脑 芯片 。 在 人 
工 智能 时 代 ， 它 们 各 自发 挥 优势 ， 呈 现 出 百花 齐 放 的 状态 。 在 美国 人 工 智能 企业 中 ， 融 资 占 比 
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排名 第 一 的 领域 为 芯片 /处 理 器 ， 融 资 315 亿 元 ， 占 比 31%。 有 专家 预测 ， 到 2020 年 ，AI 芯 
片 市 场 规模 将 达到 146.16 亿美 元 , 约 占 全 球 人 工 智能 市 场 规模 的 12.18%。AI 芯片 由 于 投资 周 
期 长 、 专 业 技术 壁垒 厚 ， 导 致 竞争 非常 激烈 且 难 以 进入 。 

AI 芯片 目前 有 三 个 技术 路 径 ， 通 用 的 GPU 〈 既 能 作为 图 形 处 理 器 引爆 游戏 业务 ， 又 能 渗 
透 数据 中 心 横扫 训练 端 ) 、 可 编程 的 FPGA (适用 于 和 迭代 升级 ， 各 类 场景 化 应 用 前 景 超 大 ) 以 
及 专业 的 ASIC ORFA AI 的 大 门 ) 。 其 中 ， 英 伟 达 、 英 特 尔 两 大 传统 芯片 巨头 在 三 大 路 
径 ， 特 别 是 通用 芯片 和 半 定 制 芯片 都 有 布局 ， 掌 握 强 大 的 先 发 优 势 ， 在 数据 中 心 、 汽 车 等 重要 
蓝海 布局 扎实 ; ASIC 方面 ， 谷 歌 从 TPU 出 发 开源 生态 进行 布局 ， 且 二 代 TPU 展露 了 训练 端 
芯片 市 场 的 野心 ， 且 ASIC 定制 化 的 特点 有 效 规避 了 传统 巨头 的 垄断 局 面 ， 有 着 可 靠 健 康 的 发 
展 路 线 。 表 2-1 总 结 了 目前 几 个 主流 的 AI 芯片 厂商 。 


表 2-1 Al 芯片 厂商 列表 


发 布 戏 龙 神经 处 理 引擎 软件 开发 工具 包 挖掘 驹 龙 SoCAI 计算 能 力 ， 与 
Facebook AI 研究 所 合作 研制 AI 芯片 ， 收 购 NXP 致力 于 发 展 智能 驾驶 芯片 
谷歌 TPU 


专 为 其 深度 学 习 算法 TensorFlow 设计 ， 也 用 在 AlphaGo 系统 、StreetView 
(TensorFlow 和 机 器 学 习 系统 RankBrain 中 ， 第 二 代 Cloud TPU 理论 算 力 达到 了 180T 
Processing Unit) | Flops， 能 够 对 机 器 学 习 模 型 的 训练 和 运行 带 来 显著 的 加 速效 果 


英 伟 达 | GPU 适合 并 行 算法 ， 占 目前 AI 芯片 市 场 最 大 份额 ， 应 用 领域 涵盖 视频 游戏 、 电 
影 制作 、 产 品 设 计 、 医 疗 诊断 等 各 个 门类 














AMD GPU 第 二 大 市 场 


RA 167 亿美 元 收购 的 Altera， 峰 值 性 能 逊色 于 GPU， 指 令 可 编程 ， 且 功 耗 


也 要 小 得 多 ， 适 用 于 工业 制造 、 汽 车 电子 系统 等 ， 可 与 至 强 处 理 器 整合 

他 加 速 器 或 协 处 理 器 的 情况 下 高 效 处 理 深度 学 习 应 用 

自主 研发 ， 已 被 用 于 Bing 搜索 ， 能 支持 微软 的 云 服务 Azure， 速 度 比 传统 
芯片 快 得 多 


世界 上 最 大 的 FPGA 制造 厂商 ，2016 年 底 推出 支持 深度 学 习 的 re Vision 堆栈 














IBM TrueNorth 是 一 种 基于 神经 形态 的 工程 ，2011 年 和 2014 年 分 别 发 布 了 TrueNorth 第 一 
类 脑 芯片 代 和 第 二 代 类 脑 芯 片 二 代 神 经 元 增加 到 100 77^ 可 编程 数量 增加 976 倍 
每 秒 可 执行 460 亿 次 计算 
苹果 专用 芯片 该 芯片 定位 于 本 地 设备 AI 任务 处 理 ， 把 面部 识别 、 语 音 识 别 等 AI 相关 任务 
Apple Neural 集中 到 AI 模块 上 ， 提 升 AI 算法 效率 ， 未 来 可 能 嵌入 苹果 的 终端 设备 中 
Engine 
Mobileye | EyeQ5 用 于 汽车 辅助 驾驶 系统 





英 伟 达 是 GPU 的 行业 领袖 。GPU 是 目前 深度 学 习 领域 的 主流 芯片 ， 拥 有 强大 的 并 行 计 算 
力 。 而 另 一 个 老牌 芯片 巨头 英特尔 则 是 通过 大 举 收购 进入 FPGA 人 工 智能 芯片 领域 的 。 谷 歌 
的 TPU 是 专门 为 其 深度 学 习 算 法 TensorFlow 设计 的 ，TPU 也 用 在 了 AlphaGo 系统 中 。2017 
年 发 布 的 第 二 代 Cloud TPU 理论 算 力 达到 了 180T Flops, 能 够 对 机 器 学 习 模 型 的 训练 和 运行 带 
来 显著 的 加 速效 果 。 类 脑 芯片 是 一 种 基于 神经 形态 工程 , 借鉴 人 脑 信息 处 理 方式 ， 具有 学 习 能 
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力 的 超 低 功 耗 芯片 。IBM 从 2008 年 开始 模拟 人 类 大 脑 的 芯片 项 目 。 苹 果 正 在 研发 一 款 名 为 “苹果 
神经 引擎 (Apple Neural Engine) ”的 专用 芯片 。 该 芯片 定位 于 本 地 设备 的 AI 任务 处 理 ， 把 面部 识 
别 、 语 音 识别 等 任务 集中 到 AI 模块 上 ， 提 升 AI 算法 效率 ， 未 来 嵌入 苹果 的 终端 设备 中 。 

自动 驾驶 系统 与 AI 芯片 紧密 相关 ， 比 如 ， 特 斯 拉 的 电动 车 使 用 的 是 英 伟 达 的 芯片 。 在 美 
国 市 场 上 ， 正 在 逐渐 形成 英 伟 达 与 英特尔 -Mobileye 联盟 两 大 竞争 者 。Mobileye 被 英特尔 以 每 
股 63.54 美元 的 价格 收购 。Mobileye 的 机 器 视觉 算法 与 英特尔 的 芯片 、 数 据 中 心 、AI 和 传 感 
器 融合 ， 加 上 地 图 服务 ， 正 协同 打造 一 个 全 新 的 自动 驾驶 供应 商 。 英 特 尔 的 EyeQ5 芯片 对 标 
英 伟 达 专 为 自动 驾驶 开发 的 Drive PX Xavier SoC, 据说 EyeQ5 的 计算 性 能 达到 了 24 TOPS (万 
亿 次 /每 秒 ) ， 功 耗 为 10 瓦 。 











2.1.2 GPU 


随 着 CPU 摩尔 定律 的 终止 ， 传 统 处 理 器 的 计算 力 已 远 远 不 能 满足 海量 并 行 计算 与 浮 点 运 
算 的 深度 学 习 训练 需求 , 而 在 人 工 智 能 领域 反应 出 强大 适应 性 的 GPU 成 为 标 配 。 GPU 比 CPU 
拥有 更 多 的 运算 器 (Arithmetic Logical Unit) ， 只 需要 进行 高 速 运算 而 不 需要 轴 辑 判断 ， 其 海 
量 数据 并 行 运算 的 能 力 与 深度 学 习 的 需求 不 谋 而 合 。 因此, 在 深度 学 习 上 游 训练 端 (主要 用 于 
云 计算 数据 中 心 ) ，GPU 是 第 一 选择 。 目 前 ，GPU 的 市 场 格 局 以 英 伟 达 为 主 ( 超 过 70%) , 
AMD 为 辅 ， 预 计 3~5 年 内 GPU 仍然 是 深度 学 习 市 场 的 第 一 选择 。 

截至 目前 ， 英 伟 达 毫 无 疑问 是 这 波 人 工 智能 浪潮 最 大 的 受益 者 。 英 伟 达 股价 从 2016 年 初 
的 32.25 美元 上 涨 至 2018 年 初 的 245.8 美元 , 两 年 间 其 市 值 峰 升 近 8 倍 , 并 迅速 获得 了 英特尔 
的 体 量 。 英 伟 达 的 崛起 完全 得 益 于 这 场 突 如 其 来 的 人 工 智能 大 革新 。 

有 些 芯片 商 除 了 做 芯片 之 外 ， 还 会 在 整个 AI 生态 上 进行 布局 。 例 如 ， 英 伟 达 拥有 一 个 较 
为 成 熟 的 开发 生态 环境 (CUDA， 见 图 2-3) ， 包 括 开 发 套件 和 丰富 的 库 〈 见 图 2-3) 以 及 对 英 
伟 达 GPU 的 原生 支持 。 据 说 在 CUDA 上 面 的 开发 者 人 数 已 经 超过 50 万 人 。 

f «| a cuna zore | wA D x 
€2»048 


NVIDIA ACC! 














The CUDA Toolkit from NVIDIA 


HIGHEST DELIVERED PERFORMANCE 


NVIDIA Tesla P100 Performance 


P Barne n 
2-3 英 伟 达 GPU 开发 环境 CUDA、 开 发 库 和 工具 
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2-3 英 伟 达 GPU 开发 环境 CUDA、 开 发 库 和 工具 GE) 


2.4.8 FPGA 


FPGA 是 现场 可 编程 门 阵列 。 下 游 推理 端 更 接近 终端 应 用 , 更 关注 响应 时 间 而 不 是 吞吐 率 ， 
需求 更 加 细 分 。 目 前 来 看 ， 下 游 推 理 端 虽 可 容纳 GPU. FPGA. ASIC 等 芯片 ， 但 随 着 AI 的 
发 展 ，FPGA 的 低 延 迟 、 低 功 耗 、 可 编程 性 〈 适 用 于 传感器 数据 预 处 理工 作 以 及 小 型 开发 试 错 
升级 迭代 阶段 ) 将 凸显 出 来 。 

在 FPGA 的 市 场 份额 中 ，Xilinx 为 49%， 主 要 应 用 于 工业 和 通信 领域， 近年 亦 致力 于 云 
计算 数据 中 心 的 服务 器 以 及 无 人 驾驶 的 应 用 。Altera (已 被 英特尔 收购 ) 的 市 场 份额 约 为 40%， 
定位 跟 Xilinx 类 似 。 莱 迪 斯 半 导体 (Lattice Semiconductor) 的 市 场 份额 约 为 6%， 主 要 市 场 
为 消费 电子 产品 和 移动 传输 ， 以 降低 耗 电量 、 缩 小 体积 及 缩减 成 本 为 主 。Microsemi (Actel) 
的 市 场 份额 约 为 4%， 瞄 准 通信 、 国 防 与 安全 、 航 天 与 工业 等 市 场 。 目 前 ，Altera 的 FPGA 产 
品 被 用 于 微软 Azure 云 服务 中 ， 包 括 必 应 搜索 、 机 器 翻译 等 应 用 中 。 








2.1.4 ASIC 


ASIC 是 Application Specific Integrated Circuit 的 英文 缩写 。AI 芯片 的 计算 场景 可 分 为 云 
端 AI 和 终端 AI。 英 伟 达 首席 科学 家 William Dally 将 深度 学 习 的 计算 场景 分 为 三 类 ， 分 别 是 
数据 中 心 的 训练 、 数 据 中 心 的 推断 和 嵌入 式 设 备 的 推断 。 前 两 者 可 以 总 结 为 云端 的 应 用 , 后 者 
可 以 概括 为 终端 的 应 用 。 终 端 设备 的 模型 推断 方面 , 由 于 低 功 耗 、 便携 等 要 求 , FPGA Fil ASIC 
的 机 会 优 于 GPU。 

终端 智能 芯片 的 一 个 经 典 案例 是 苹果 的 A11 神经 引擎 ， 它 采用 双核 设计 ， 每 秒 运算 次 数 
最 高 可 达 6000 亿 次 。2017 年 9 月 ,苹果 发 布 了 iPhone X,， 搭 载 64 位 架构 A11 神经 处 理 引擎 ， 
实现 了 基于 深度 学 习 的 高 准确 性 面部 识别 解锁 方式 (Face ID) ,并 解决 了 云 接口 (Cloud-Based 
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API) 带 来 的 延 时 和 隐私 问题 ， 以 及 庞大 的 训练 数据 和 计算 量 与 终端 硬件 限制 的 矛盾 。 


2.45. TPU 


随 着 人 工 智能 革新 浪潮 与 技术 进程 的 推进 , AT 芯片 成 了 该 领域 下 一 阶段 的 竞争 核心 .2016 
年 5 月 ,谷歌 发 布 了 一 款 特别 的 机 器 学 习 专属 芯片 : 张 量 处 理 器 (Tensor Processing Unit, TPU), 
2017 年 又 推出 了 它 的 第 二 代 产 品 (Cloud TPU) 。 这 是 一 种 被 认为 比 CU， 甚至 GPU 更 加 高 
效 的 机 器 学 习 专用 芯片 。2018 年 2 H 13 H, AKZ TPU 机 器 学 习 加 速 器 测试 版 向 外 部 用 户 
开放 ， 价 格 大 约 为 每 云 TPU 每 小 时 6.50 美元 。 此 举 意味 着 这 种 曾 支持 了 著名 AI 围棋 程序 
AlphaGo 的 强大 芯片 将 很 快 成 为 各 家 科技 公司 开展 人 工 智 能 业务 的 强大 资源 ， 谷 歌 第 二 代 
TPU 从 内 部 项 目 迈 向 外 部 开发 者 、 企 业 、 专 有 领域 走出 了 关键 的 一 步 。 

据 谷 歌 称 ， 第 一 代 TPU 仅 能 够 处 理 推理 任务 , 而 第 二 代 TPU 还 可 以 用 于 机 器 学 习 模型 
的 训练 ， 这 个 机 器 学 习 过 程 中 重要 的 部 分 完全 可 以 在 单 块 、 强 大 的 芯片 上 进行 。2017 年 4 月 ， 
谷歌 曾 通过 一 篇 论文 《In-Datacenter Performance Analysis of a Tensor Processing Unit》 介 绍 了 
TPU 研究 的 相关 技术 以 及 第 二 代 芯 片 与 其 他 类 似 硬件 的 性 能 比较 结果 。 TPU 可 以 帮助 谷歌 的 
各 类 机 器 学 习 应 用 进行 快速 预测 ， 并 使 产品 迅速 对 用 户 需 求 做 出 回应 。 谷 歌 称 ，TPU 已 运行 
在 每 一 次 搜索 中 : TPU 支持 谷歌 图 像 搜索 (Google Image Search) 、 谷 歌 照片 (Google Photo) 
和 谷歌 云 视觉 API (Google Cloud Vision API) 等 产品 的 基础 精确 视觉 模型 ，TPU 也 帮助 了 谷 
歌 翻译 质量 的 提升 ， 而 其 强大 的 计算 能 力也 在 DeepMind AlphaGo 的 重要 胜利 中 发 挥 了 作用 。 
谷歌 正式 涉 入 人 工 智 能 专属 芯片 领域 ， 这 是 一 个 包含 数 十 家 创业 公司 ,以 及 英特尔 、 高 通 和 英 
伟 达 这 样 的 传统 硬件 厂商 的 重要 市 场 。 随 着 时 代 的 发 展 ， 谷 歌 、 亚 马 逊 和 微软 已 不 再 是 纯粹 的 
互联 网 企业 ， 它 们 都 已 或 多 或 少 地 开始 扮演 起 硬件 制造 者 的 角色 。 

谷歌 其 实 也 并 不 是 TPU 的 唯一 使 用 者 ， 美 国 出 行 服务 公司 Lyft 在 2017 年 底 开 始 参与 
了 和 谷歌 新 型 芯片 的 测试 .Lyft 希望 通过 使 用 TPU 加 速 自动 驾驶 汽车 系统 的 开发 速度 :TPU 在 
计算 机 视觉 模型 的 训练 速度 上 具有 优势 ， 可 将 原先 耗 时 数 日 的 任务 缩短 至 几 小 时 内 完成 。 

谷歌 在 其 云 平台 上 宣布 了 TPU 服务 开放 的 消息 ( 见 图 2-4) 。 通 过 谷歌 云 平台 (GCP) 
提供 的 Cloud TPU beta 版 自 2018 年 2 月 12 日 起 可 用 ,其 旨 在 帮助 机 器 学 习 专 家 更 快 地 训 
练 和 运行 ML 模型 。Cloud TPU 是 谷歌 设计 的 一 种 硬件 加 速 器 ， 旨 在 优化 以 加 速 和 扩大 使 用 
TensorFlow 编程 的 机 器 学 习 工 作 负载 。Cloud TPU 使 用 4 个 定制 化 ASIC 构建 ， 单 个 Cloud 
TPU 的 计算 能 力 达到 180 LK eH, AS 64 GB 的 高 带宽 内 存 。 这 些 板 卡 可 单独 使 
用 ,也 可 以 通过 超 快 的 专门 网 络 联合 使 用 , 以 构建 数 千 万 亿 次 级 别 的 机 器 学 习 超级 计算 机 (TPU 
pod) 。Cloud TPU 的 目的 是 为 TensorFlow 工作 负载 提供 差异 化 的 性 能 ,使 ML 工程 师 和 研 
究 者 实现 更 快 失 代 。 无 须 花费 数 日 或 数 周 等 待 商 用 级 机 器 学 习 模型 ， 就 可 以 在 一 系列 Cloud 
TPU 上 训练 同样 模型 的 不 同 变 体 ， 而 且 第 二 天 就 可 以 将 准确 率 最 高 的 训练 模型 部 署 到 生产 过 
程 。 使 用 单个 Cloud TPU 并 遵循 教程 (https://cloud.google.com/tpu/docs/tutorials/resnet) ， 就 
可 以 在 不 到 一 天 的 时 间 内 训练 ResNet-50， 使 其 在 ImageNet 基准 挑战 上 达到 期 望 的 准确 率 。 
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图 2-4 谷歌 的 TPU 


传统 上 ， 编 写 自 定义 ASIC 和 超级 计算 机 的 程序 需要 极 高 的 专业 度 。 而 对 于 Cloud TPU 
而 言 ， 可 以 使 用 高 级 TensorFlow API 进行 编程 ， 谷 歌 开源 了 一 系列 高 性 能 Cloud TPU 模型 
实现 ， 比 如 ResNet-50 (https://cloud.google.com/tpu/docs/tutorials/resnet ) 和 图 像 分 类 模型 

C https://github.com/tensorflow/tpu/tree/master/models/official) ， 用 于 机 器 翻译 和 语言 建 模 的 

Transformer (https://cloud.google.com/tpu/docs/tutorials/transformer, https://research.googleblog. 
com/2017/08/transformer-novel-neural-network.html)， 用 于 目标 检测 的 RetinaNet (https://github. 
com/tensorflow/tpu/blob/master/models/official/retinanet/ README.md) 。 

云 TPU 同样 简化 了 对 机 器 学 习 计 算 资 源 的 规划 和 管理 。 可 以 为 自己 的 团队 提供 顶尖 的 机 
器 学 习 加 速 , 随 着 需求 的 变化 动态 调整 自己 的 容量 。 相 比 于 花费 资金 、 时 间 和 专业 人 才 来 设计 、 
安装 、 维 护 一 个 实地 的 机 器 学 习 计 算 群 ( 还 需要 专门 化 的 供 能 、 冷 却 、 网 络 和 存储 ) ， 我 们 可 
以 从 谷歌 多 年 以 来 优化 过 的 大 规模 、 高 集成 的 机 器 学 习 基础 设施 受益 。 另 外 ,谷歌 云 服务 还 提 
供 了 复杂 的 安全 机 制 和 实践 的 保护 。 伴 随 谷歌 云 TPU， 它 还 提供 大 量 的 高 性 能 CPU (包括 英 
特 尔 Skylake) 和 GPU (包括 英 伟 达 的 Tesla V100) 。 

有 意思 的 是 ， 谷 歌 宣布 对 第 二 代 TPU 的 全 面 开放 让 英 伟 达 警 觉 的 神经 再 次 紧 崩 。 可 以 认 
为 ， 谷 歌 是 英 伟 达 在 人 工 智能 算 力 市 场 最 大 的 竞争 对 手 。 早 在 谷歌 公布 第 一 代 TPU 之 时 ， 英 
伟 达 CEO 立马 抛 出 市 场 上 最 好 的 GPU 计算 卡 与 TPU 的 性 能 对 比 图 。 而 随 着 第 二 代 TPU 的 发 
布 及 其 在 人 工 智 能 专 有 领域 ， 特 别 是 在 搭载 了 谷歌 TensorFlow 框架 的 深度 神经 网 络 训练 效率 
方面 的 表现 ， 外 界 越 来 越 认识 到 二 者 间 的 差距 逐渐 缩小 。 就 在 第 二 代 TPU 的 进一步 进化 
— Cloud TPU 开放 测试 之 时 ， 它 通过 TensorFlow 编程 模型 提供 的 算 力 已 达 180 tflops 之 巨 ， 
谷歌 宣称 一 个 Cloud TPU 能 在 24 小 时 内 对 ResNet-50 模型 训练 达到 75% 的 精度 。 而 180 tflops 
的 浮 点 操作 也 达到 了 超级 计算 机 的 算 力 级 别 。 

谷歌 在 人 工 智能 领域 的 雄心 十 分 明显 ， 从 一 开始 对 TPU 的 只 字 不 谈 到 后 来 开放 上 云 ， 谷 
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歌 已 逐渐 认识 到 算 力 市 场 的 巨大 潜力 并 渴求 牢 牢 抓 住 这 一 契机 。 谷 歌 的 人 工 智 能 生态 系统 在 过 
去 两 年 间 为 自家 旗下 的 产品 (包括 智能 语音 与 搜索 图 像 识 别 、 谷 歌 翻译 ) 以 及 其 他 互联 网 应 用 
的 表现 上 提供 了 算 力 优势 , TPU+TensorFlow+ 云 训练 的 模式 让 谷歌 获得 了 迄今 为 止 其 他 科技 巨 
头 尚 不 具备 的 人 工 智能 核心 竞争 实力 。 这 一 点 已 经 引起 其 他 科技 公司 的 注意 ， 他 们 认为 ， 各 行 
各 业 的 公司 都 有 自己 的 数据 驱动 业务 ， 算 力 不 应 该 被 掌控 在 一 家 巨头 手 上 。AI 芯片 崛起 的 背 
后 是 算 力 的 战争 。 


2.4.6 ”亚马逊 的 芯片 


据 国 外 媒体 报道 ， 亚 马 进 正在 研发 一 款 人 工 智 能 芯片 ， 主 要 用 于 亚马逊 Echo 和 基于 亚 马 
ih Alexa 虚拟 助手 的 其 他 硬件 设备 。 据 称 ， 这 款 芯片 将 极 大 地 提高 基于 Alexa 硬件 设备 的 数据 
处 理 能 力 ， 从 而 让 这 些 设 备 更 迅速 地 响应 用 户 的 命令 。 此 举 让 亚马逊 成 为 继 谷 歌 和 苹果 之 后 ， 
又 一 家 自主 研发 人 工 智能 芯片 的 大 型 科技 公司 。 这 些 科技 公司 之 所 以 这 样 做 , 是 为 了 实现 自家 
产品 的 个 性 化 ,但 对 于 英特尔 和 英 伟 达 等 传统 蕊 片 公司 而 言 ,他 们 的 客户 就 要 变 成 竞争 对 手 了 。 

在 过 去 的 两 年 ， 通 过 收购 和 招募 人 才 ， 亚 马 逊 已 经 在 研发 芯片 功能 。2015 F, WEHE 
Vt 3.5 亿美 元 收购 了 以 色 列 芯片 厂商 Annapurna Labs. 2017 年 ，Annapurna Labs 对 外 宣布 ， 正 
在 研发 一 系列 芯片 ， 主 要 用 于 数据 存储 设备 、WiFi 路 由 器 、 智 能 家 居 设 备 和 流 媒 体 设 备 。 如 
4 Annapurna Labs 正在 为 基于 Alexa 虚拟 助手 的 硬件 设备 研发 人 工 智能 芯片 。 此 外 ， 亚 马 逊 
2017 年 12 月 底 还 以 约 9000 万 美元 的 价格 收购 了 家 用 安防 摄像 头 开发 商 Blink, 这 也 在 很 大 程 
度 上 提升 了 亚马逊 的 芯片 设计 能 力 。Blink 最 初 开 发 用 于 视频 压缩 的 芯片 产品 ， 后 来 转型 生产 
基于 这 些 芯 片 的 摄像 头 。 

开发 一 款 基于 人 工 智能 算法 的 芯片 , 能 让 基于 Alexa 的 硬件 设备 对 于 消费 者 而 言 更 具 吸 引 
力 。 因 为 它 意 味 着 这 些 设备 将 具备 更 强 的 处 理 能 力 , 无 须 把 所 有 任务 都 推 向 云端 。 目 前 ， 亚 马 
ih Echo 内 置 的 芯片 相对 简单 ， 允 许 用 户 通过 Alexa 语音 唤醒 设备 。 当 用 户 向 亚马逊 的 数字 助 
H Alexa 发 出 请 求 时 ,信息 会 被 传输 到 亚马逊 的 云端 , 云端 服务 器 处 理 请 求 并 将 响应 提交 回 设 
备 。 这 就 会 造成 一 定 的 延迟 ,也 为 黑客 拦截 通信 提供 了 可 乘 之 机 。 如 果 将 大 部 分 语音 识别 任务 
留 给 设备 自身 处 理 , 那 用 户 体验 将 显著 提升 。 在 本 地 处 理 语音 识别 的 能 力 将 改善 由 数字 助理 驱 
动 的 任何 设备 (包括 Echo 系列 智能 音箱 ) 的 响应 时 间 。 

另外 ,亚马逊 旗下 的 云 服 务 部 门 也 在 招聘 芯片 工程 师 。 业 内 人 士 称 ,这 意味 着 亚马逊 还 在 
为 其 AWS (Amazon Web Services) 数据 中 心 的 服务 器 开发 人 工 智能 芯片。 如 果 亚 马 进 真 的 在 
为 数据 中 心 开 发 人 工 智能 芯片 ， 这 也 是 在 跟随 谷歌 的 脚步 。2016 年 ， 谷 歌 发 布 了 一 款 名 为 
Tensor Processing Unit 的 处 理 器 产品 ， 基 于 深度 学 习 算法 。 谷 歌 当时 表示 ， 该 芯片 将 驱动 谷歌 
的 一 系列 服务 ， 包 括 搜索 、 街 景 (Street View) 、 图 片 和 翻译 等 。 谷 歌 从 2013 年 起 就 在 研发 
这 款 芯 片 ， 谷 歌 曾 在 一 份 声明 中 称 : “这 种 局 面 在 2013 年 变 得 更 加 人 迫切， 当时 我 们 意识 到 ， 
快速 增长 的 神经 网 络 计算 需求 需要 我 们 将 数据 中 心 的 数量 提高 一 倍 ”。 

对 于 英特尔 和 英 伟 达 而 言 ， 亚 马 逊 自主 研发 数据 中 心 芯片 是 一 个 不 小 的 威胁 。 当 前 ， 英 特 尔 
控制 着 服务 器 主 蕊 片 市 场 98% 的 份额 ， 而 英 伟 达 则 为 这 些 服务 器 开发 与 英特尔 主 蕊 片 协同 工作 的 
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人 工 智能 芯片 。FPGA 芯片 授权 初创 公司 Flex Logix Technologies CEO (Geoff Tate) 称 : “wR 
这 种 趋势 持续 下 去 ， 将 来 ， 数 据 中 心 所 有 者 将 自主 研发 芯片 ， 与 当前 的 芯片 供应 商 相 竞争 。” 


2.4.7 芯片 产业 小 结 


摩尔 定律 的 终止 已 成 为 业界 共识 ， 那 么 AI 芯片 的 革命 又 从 何 说 起 ? 众所周知 ， 当 前 的 人 
工 智能 技术 进程 是 葛 定 在 神经 网 络 与 深度 学 习 之 上 的 , 从 人 工 智 能 发 展 史 来 看 , 经 历 了 早期 的 
控制 论 和 简单 神经 网 络 、 逻 辑 过 程 与 编程 革命 、 运 筹 学 与 博弈 论 、 专 家 系统 的 兴起 ， 人 工 智能 
技术 进程 在 算法 与 算 力 的 不 断 迭 代 中 演化 至 今 。 而 当前 神经 网 络 算法 趋 于 稳固 , 在 算法 框架 没 
有 深刻 变化 的 前 提 下 ， 算 力 就 成 了 唯一 的 更 新 焦点 。 

深度 学 习 工程 的 两 大 关键 环节 training (训练 ) 和 inference CHEW) 需要 大 量 的 算 力 支撑 ， 
而 GPU 在 训练 环节 扮演 着 不 可 或 缺 的 角色 。 但 随 着 人 工 智能 应 用 场景 的 延伸 ，GPU 并 非 所 有 
深度 学 习 计算 任务 的 充分 条 件 ，FPGA (现场 可 编程 门 阵 列 》 和 ASIC 〈 专 有 化 集成 电路 ) 同 
样 有 着 相当 大 的 表现 空间 。 前 者 通过 内 置 可 灵活 组 合 的 逻辑 、IO、 连 线 模块 为 专用 计算 服务 ， 
后 者 是 不 可 配置 的 高 度 定制 化 芯片 。 谷 歌 TPU 就 是 ASIC 的 一 种 方案 。 

凭借 GPU， 英 伟 达 公司 一 直 是 AI 趋势 的 最 大 受益 者 之 一 。 因 为 其 图 形 处 理 器 (GPU) 是 
训练 AI 系统 的 早期 选择 。GPU 能 够 同时 执行 大 量 复杂 的 数学 运算 ， 这 使 它 成 为 AI 应 用 的 最 
佳 选择 。 后 来 ， 科 技 巨头 纷纷 研发 自己 的 AI 芯片 ， 包 括 谷歌 的 TPU、 蔷 果 的 神经 引擎 、 微 软 
的 FPGA， 以 及 亚马逊 正在 为 Alexa 研发 的 定制 AI 芯片 。 

亚马逊 是 人 工 智 能 的 早期 采用 者 , 并 且 根 据 最 近 的 报道 , 亚马逊 正在 研究 可 以 在 设备 上 进 
行 处 理 或 在 边缘 处 理 的 定制 AI 芯片 ， 而 不 是 仅仅 依靠 将 设备 连接 到 云端 。 亚 马 逊 在 2015 年 
初 斥资 3.5 亿美 元 收购 了 以 色 列 芯片 制造 商 Annapurna Labs, 这 增强 了 它 在 处 理 器 方面 的 能 力 。 
该 公司 为 数据 中 心 开发 的 网 络 芯 片 能 够 传输 更 大 量 级 的 数据 , 同时 电力 消耗 更 少 。 亚 马 进 目前 
拥有 超过 450 名 有 具有 一 定 程度 的 芯片 经 验 的 员工 ， 可 能 正在 为 其 云 计算 部 门 AWS 开发 AI 处 
理 器 。 

2016 年 初 , 谷歌 开始 研发 被 称 为 张 量 处 理 器 (TPU) 的 定制 AI 芯片 ,专用 集成 电路 (ASIC) 
旨 在 为 谷歌 公司 的 深度 学 习 AI 应 用 程序 提供 更 高 效 的 性 能 ， 这 些 应 用 程序 能 够 通过 处 理 海量 
数据 进行 学 习 。 该 芯片 为 TensorFlow 奠定 了 基础 ,TensorFlow 是 用 于 训练 该 公司 的 AI 系统 的 
框架 。 最 新 版 本 的 TPU 可 以 处 理 AI 的 训练 和 推理 阶段 。 正 如 其 名 称 所 示 ，AI 系统 在 训练 阶 
段 “ 学 习 ”， 推理 阶段 使 用 算法 完成 它们 被 训练 的 工作 。 谷 歌 最 近 宣 布 ， 谷歌 云 的 客户 现在 可 
以 访问 这 些 处 理 器 。 谷 歌 的 优势 在 于 凭借 自身 TPU+ TensorFlow+ 云 的 资源 吸引 开发 者 和 拓展 
企业 级 市 场 、 专 有 领域 ， 但 该 模式 的 前 提 必 须 是 谷歌 极力 维系 TensorFlow 作为 深度 学 习 主 流 
框架 而 长 期 存在 ， 一 旦 神经 网 络 算法 主流 架构 有 变 ，TPU 作为 高 度 制定 化 的 芯片 产物 ， 其 单 
位 成 本 之 高 恐 酿 成 不 可 回避 的 风险 。 相 反 ,， 倘若 谷歌 的 计划 顺利 实施 ， 其 垄断 的 生态 优势 同样 
对 英 伟 达 形 成 巨大 威胁 。 

苹果 公司 一 直 是 用 户 隐私 的 支持 者 , 并 且 走 了 一 条 与 它 的 技术 同行 不 同 的 道路 。 该 公司 的 
移动 设备 为 传输 到 云端 的 任何 数据 添加 电子 噪音 , 同时 剥离 任何 可 识别 个 人 身份 的 信息 , 从 而 
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更 大 程度 地 保证 用 户 的 隐私 和 安全 。 随 着 iPhone X 的 发 布 ， 苹 果 开 发 了 一 种 神经 引擎 ， 作 为 
其 新 的 All 仿生 芯片 的 一 部 分 ， 该 芯片 是 一 款 可 在 本 地 处 理 多 种 AI 功能 的 先进 处 理 器 。 这 大 
大 减少 了 传输 到 云端 的 用 户 信息 量 ， 有 助 于 保护 数据 。 

微软 公司 早 前 投注 于 可 定制 处 理 器 一 一 现场 可 编程 门 阵列 (FPGA) ， 这 是 一 种 专用 芯片 ， 
可 为 客户 的 特定 用 途 进行 配置 .这些 已 经 成 为 微软 Azure 云 计 算 系统 的 基础 , 并 且 提 供 比 GPU 
等 传统 产品 更 灵活 的 架构 和 更 低 的 功 耗 。 

虽然 这 些 公 司 都 采用 了 不 同 的 处 理 器 策略 ， 但 他 们 仍 在 大 量 使 用 英 伟 达 的 GPU。 英 伟 达 
CPU 的 使 用 增长 仍 在 继续 。 在 最 近 一 个 季度 ， 英 伟 达 公 布 了 创 纪录 的 29.1 亿美 元 的 营 收 ， 比 
上 年 同期 增长 了 34%。 该 公司 的 数据 中 心 部 门 〈 其 中 包含 AI 的 销售 ) 同比 增长 105%， 达 到 
6.06 亿美 元 ， 目 前 占 英 伟 达 总 收入 的 21%。 竞 争 是 不 可 避免 的 ， 但 到 目前 为 止 还 没有 解决 方 
案 能 够 完全 取代 GPU。 

调研 机 构 Deloitte 预测 , 2018 年 ,基于 深度 学 习 的 全 球 GPU 市 场 需求 大 约 在 50 万 块 左右 ， 
FPGA 和 ASIC 的 需求 则 分 别 是 20 万 块 和 10 万 块 左右 。 相 比 GPU 集群 ，FPGA 因 其 定制 化 、 
低 功 耗 和 忽略 延迟 的 特点 , 在 终端 推测 环节 有 着 广泛 应 用 ， 所 以 它 被 微软 、 亚 马 逊 等 云 商 以 及 
苹果 、 三 星 等 手机 制造 商 所 接受 。 而 GPU 与 TPU 作为 训练 环节 的 主力 ， 则 开启 了 两 种 不 同 产 
品 形态 争锋 对 立 的 局 面 ， 也 就 是 说 ,在 深度 学 习 训练 领域 , 完全 成 了 英 伟 达 和 谷歌 两 者 之 间 的 
战争 。AI 芯片 战争 已 经 全 面 打响 ， 由 人 工 智能 进程 引发 的 第 二 次 芯片 革命 已 经 让 业界 嗅 到 了 
熟悉 的 工业 革命 的 气息 。 正 如 19 世纪 蒸汽 机 、 内 燃 机 的 迭代 结束 了 大 洋 之 上 纵横 数 个 世纪 的 
风帆 时 代 , 人 工 智 能 算 力 的 突破 亦 将 成 为 摩尔 定律 的 变革 者 , 将 延续 了 近 一 个 世纪 的 计算 机 科 
学 文明 引入 下 一 阶段 。 


2.1.8 传感器 


如 今 的 机 器 人 已 具有 类 似 人 一 样 的 肢体 及 感官 功能 ， 有 一 定 程度 的 智能 ， 动 作 程序 灵活 ， 
在 工作 时 可 以 不 依赖 人 的 操纵 。 而 这 一 切 都 少不了 传感器 的 功劳 , 传感器 是 机 器 人 感知 外 界 的 
重要 帮手 ， 它 们 犹如 人 类 的 感知 器 官 ， 机 器 人 的 视觉 、 力 觉 、 触 觉 、 嗅 觉 、 味 觉 等 对 外 部 环境 
的 感知 能 力 都 是 由 传感器 提供 的 ， 同 时 ， 传 感 器 还 可 用 来 检测 机 器 人 自身 的 工作 状态 ， 以 及 机 
器 人 智能 探测 外 部 工作 环境 和 对 象 的 状态 , 并 能 够 按照 一 定 的 规律 转换 成 可 用 输出 信号 的 一 种 
器 件 。 为 了 让 机 器 人 实现 尽 可 能 高 的 灵敏 度 ， 在 它 的 身体 构造 里 会 装 上 各 式 各 样 的 传感器 , 那 
么 机 器 人 究竟 要 具备 多 少 种 传感器 才能 尽 可 能 地 做 到 如 入 类 一 样 灵敏 呢 ? 

根据 检测 对 象 的 不 同 可 将 机 器 人 用 的 传感器 分 为 内 部 传感器 和 外 部 传感器 内 部 传感器 主 
要 用 来 检测 机 器 人 内 部 系统 的 状况 ， 如 各 关节 的 位 置 、 速 度 、 加 速度 、 温 度 、 电 机 速度 、 电 机 
载荷 、 电 池 电 压 等 ， 并 将 所 测 得 的 信息 作为 反馈 信息 送 至 控制 器 ， 形 成 闭环 控制 。 而 外 部 传 感 
器 用 来 获取 有 关机 器 人 的 作业 对 象 及 外 界 环境 等 方面 的 信息 ,是 机 器 人 与 周围 交互 工作 的 信息 
通道 ， 用 来 执行 视觉 、 接 近 觉 、 触 觉 、 力 觉 等 传感器 ， 比 如 距离 测量 、 声 音 、 光 线 等 。 


© ”视觉 传感器 
机 器 视觉 是 使 机 器 人 具有 感知 功能 的 系统 , 其 通过 视觉 传感器 获取 图 像 进行 分 析 , 让 机 器 
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人 工 智能 与 大 数据 技术 导论 


人 能 够 代替 人 眼 辨识 物体 ,测量 和 判断 ， 实 现 定位 等 功能 。 业界 人 士 指出 ,目前 在 中 国 使 用 简 
便 的 智能 视觉 传感器 占 了 机 器 视觉 系统 市 场 60% 左 右 的 份额 。 视 觉 传感器 的 优点 是 探测 范围 
广 、 获取 信息 丰 富 , 实际 应 用 中 常 使 用 多 个 视觉 传感器 或 者 与 其 他 传感器 配合 使 用 , 通过 一 定 
的 算法 可 以 得 到 物体 的 形状 、 距 离 、 速 度 等 诸多 信息 。 

以 深度 摄像 头 为 基础 的 计算 视觉 领域 已 经 成 为 整个 高 科技 行业 的 投资 和 创业 热点 之 一 。 有 意 
思 的 是 , 这 一 领域 的 许多 尖端 成 果 都 是 由 初创 公司 先 推出 的 , 再 被 巨头 收购 后 发 扬 光 大 , 例如 Intel 
收购 RealSense 实感 摄像 类， 苹果 收购 Kinect 的 技术 供应 商 PrimeSense, Oculus 收购 了 一 家 主攻 
高 精确 度 手 势 识 别 技术 的 以 色 列 技术 公司 Pebbles Interfaces. 在 国内 计算 视觉 方面 的 创业 团队 虽然 
还 没有 大 规模 进入 投资 者 的 视野 ， 但 当中 的 佼佼 者 已 经 开始 取得 令 人 瞩目 的 成 绩 。 

深度 摄像 头 早 在 20 世纪 80 年 代 就 由 IBM 提出 了 相关 概念 ，2005 年 创建 于 以 色 列 的 
PrimeSense 公司 是 该 技术 民用 化 的 先驱 。 当 时 ， 在 消费 市 场 推广 深度 摄像 头 还 处 在 概念 阶段 ， 
此 前 深度 摄像 头 仅 使 用 在 工业 领域 ， 为 机 械 臂 、 工 业 机 器 人 等 提供 图 形 视觉 服务 。 由 它 提 供 技 
术 方 案 的 微软 Kinect 成 为 深度 摄像 头 在 消费 领域 的 开山 之 作 ， 并 带动 整个 业界 对 该 技术 的 民 
用 开发 。 

e FRERS 

声音 传感器 的 作用 相当 于 一 个 话 简 (麦克 风 ) ， 用 来 接收 声波 ， 显 示 声 音 的 振动 图 像 ， 但 
不 能 对 噪声 的 强度 进行 测量 。 声 觉 传 感 器 主要 用 于 感受 和 解释 在 气体 〈 非 接触 感受 ) 、 液 体 或 
固体 (接触 感受 ) 中 的 声波 。 声 波 传感器 的 复杂 程度 可 以 从 简单 的 声波 存在 检测 到 复杂 的 声波 
频率 分 析 ， 直 到 对 连续 自然 语言 中 单独 语音 和 词汇 的 辨别 。 

从 20 世纪 50 年 代 开始 ，BELL 实验 室 开发 了 世界 上 第 一 个 语音 识别 Audry 系统 ,可 以 识 
别 10 个 英文 数字 。 到 20 世纪 70 年 代 ， 声 音 识别 技术 得 到 快速 发 展 ， 动 态 时 间 规 整 (DTW) 
算法 、 矢 量 量 化 (VQ) 以 及 隐 马 尔 科 夫 模型 (HMM) 理论 等 相继 被 提出 ， 实 现 了 基于 DTW 
技术 的 语音 识别 系统 。 近 年 来 ， 声音 识别 技术 已 经 从 实验 室 走向 实用 ,国内 很 多 公司 都 利用 声 
音 识别 技术 开发 出 了 相应 产品 ， 比 如 科大 讯 飞 、 腾 讯 、 百 度 等 ， 共 间 语 音 技术 领域 。 


e ”距离 传感器 


用 于 智能 移动 机 器 人 的 距离 传感器 有 激光 测 距 仪 ( 兼 可 测 角 ) 、 声 纳 传感器 等 ， 近 年 来 发 
展 起 来 的 激光 雷达 传感器 是 目前 比较 主流 的 一 种 ， 可 用 于 机 器 人 导航 和 回避 障碍 物 。 


e ”触觉 传感器 


和 触觉 传感器 主要 是 用 于 机 器 人 中 模仿 触觉 功能 的 传感器 触觉 是 人 与 外 界 环境 直接 接触 时 
的 重要 感觉 功能 , 研制 满足 要 求 的 触觉 传感器 是 机 器 人 发 展 中 的 技术 关键 之 一 。 随 着 微 电 子 技 
术 的 发 展 和 各 种 有 机 材料 的 出 现 , 已 经 提出 了 多 种 多 样 的 触觉 传感器 的 研制 方案 , 但 目前 大 都 
属于 实验 阶段 ， 达 到 产品 化 的 不 多 。 

@ ”接近 觉 传感器 


接近 觉 传感器 介 于 触觉 传感器 和 视觉 传感器 之 间 , 可 以 测量 距离 和 方位 , 而 且 可 以 融合 视 
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9823 Al 产 业 


觉 和 触觉 传感器 的 信息 。 接 近 觉 传感器 可 以 辅助 视觉 系统 的 功能 , 来 判断 对 象 物体 的 方位 、 外 
形 ,同时 识别 其 表面 形状 。 因此 ， 为 准确 抓 取 部 件 ， 对 机 器 人 接近 觉 传感器 的 精度 要 求 是 非常 
高 的 。 这 种 传感器 主要 有 以 下 几 点 作用 : 


CD 发 现 前 方 障碍 物 ， 限 制 机 器 人 的 运动 范围 ， 以 避免 障碍 物 碰撞 。 

(2) 在 接触 对 象 物 前 得 到 必要 信息 ， 比 如 与 物体 的 相对 距离 、 相 对 倾角 ， 以 便 为 后 续 动 
作 做 准备 。 获 取 物 体 表面 各 点 间 的 距离 ， 从 而 得 到 有 关 对 象 物 表面 形状 的 信息 。 

e (ERE 

滑 觉 传感器 主要 是 用 于 检测 机 器 人 与 抓 握 对 象 间 滑 移 程度 的 传感器 .为 了 在 抓 握 物 体 时 确 
定 一 个 适当 的 握力 值 ， 需要 实时 检测 接触 表面 的 相对 滑动 ,然后 判断 握力 ,在 不 损伤 物体 的 情 
况 下 逐渐 增加 力量 , 滑 觉 检测 功能 是 实现 机 器 人 柔性 抓 握 的 必 备 条 件 。 通过 滑 觉 传感器 可 实现 
识别 功能 ,对 被 抓 物体 进行 表面 粗糙 度 和 硬度 的 判断 。 滑 觉 传 感 器 按 被 测 物体 滑动 的 方向 可 分 
为 三 类 : 无 方向 性 传感器 、 单 方向 性 传感器 和 全 方向 性 传感器 。 其 中 ， 无 方向 性 传感器 只 能 检 
测 是 否 产 生 滑动 , 无 法 判别 方向 ; 单方 向 性 传感器 只 能 检测 单一 方向 的 滑 移 ; 全 方向 性 传感器 
可 检测 多 个 方向 的 滑动 情况 ， 这 种 传感器 一 般 制 成 球形 以 满足 需要 。 


e AKERS 


力 觉 传感器 是 用 来 检测 机 器 人 自身 力 与 外 部 环境 力 之 间 相 互 作 用 力 的 传感器 。 力 觉 传感器 
经 常 装 于 机 器 人 关节 处 , 通过 检测 弹性 体 变形 来 间接 测量 所 受 力 。 装 于 机 器 人 关节 处 的 力 觉 传 
感 器 常 以 固定 的 三 坐标 形式 出 现 , 有 利于 满足 控制 系统 的 要 求 。 目 前 出 现 的 六 维 力 觉 传感器 可 
实现 全 力 信息 的 测量 , 因 其 主要 安装 于 腕 关节 处 被 称 为 腕 力 觉 传感器 。 腕 力 觉 传 感 器 大 部 分 采 
用 应 变 电 测 原理 ， 按 其 弹性 体 结构 形式 可 分 为 两 种 : 简 式 和 十 字形 腕 力 觉 传感器 。 其 中 ， 简 式 
腕 力 觉 传感器 具有 结构 简单 、 弹 性 梁 利 用 率 高 、 灵 敏 度 高 的 特点 ; 而 十 字形 腕 力 觉 传感器 结构 
简单 、 坐 标 建立 容易 ， 但 加 工 精度 要 求 高 。 


© ”速度 和 加 速度 传感器 


速度 传感器 有 测量 平移 和 旋转 运动 速度 两 种 ,但 大 多 数 情况 下 ， 只 限于 测量 旋转 速度 。 利 
用 位 移 的 导数 , 特别 是 光电 方法 让 光照 射 旋转 圆 盘 , 检测 出 旋转 频率 和 脉冲 数目 ， 以 求 出 旋转 
角度 ， 并 利用 圆 盘 制 成 有 缝隙 ， 通 过 二 个 光电 二 极 管 辨 别 出 角 速度 〈 转 速 ) ， 这 就 是 光电 脉冲 
式 转速 传感器 。 

加 速度 传感器 是 一 种 能 够 测量 加 速度 的 传感器 。 通 常 由 质量 块 、 阻 尼 器 、 弹 性 元 件 、 敏 感 
元 件 和 适 调 电路 等 部 分 组 成 。 传 感 器 在 加 速 过 程 中 ,通过 对 质量 块 所 受 惯性 力 的 测量 ， 利 用 牛 
顿 第 二 定律 获得 加 速度 值 。 根 据 传感器 敏感 元 件 的 不 同 ， 常 见 的 加 速度 传感器 包括 电容 式 、 电 
感 式 、 应 变 式 、 压 阻 式 、 压 电 式 等 。 





2.1.9 传感器 小 结 
机 器 人 要 想 做 到 如 入 类 般 灵 人 敏 ， 视 觉 传感器 、 声 觉 传感器 、 距 离 传感器 、 触 觉 传感器 、 接 
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近 觉 传感器 、 力 觉 传 感 器 、 滑 觉 传感器 、 速度 和 加 速度 传感器 这 8 种 传感器 对 机 器 人 极为 重要 ， 
尤其 是 机 器 人 的 五 大 感官 传感器 是 必 不 可 少 的 , 从 拟人 功能 出 发 , 视觉 、 力 觉 、 触 觉 最 为 重要 ， 
目前 已 进入 实用 阶段 ， 但 其 他 的 感官 ， 如 听觉 、 嗅 觉 、 味 觉 、 滑 觉 等 对 应 的 传感器 还 等 待 一 一 
攻克 。 

人 工 智能 目前 正在 为 社会 的 方方面面 带 来 革新 。 比 如 , 通过 结合 数据 挖掘 和 深度 学 习 的 优 
势 , 我 们 可 以 利用 人 工 智能 来 分 析 各 种 来 源 的 大 量 数据 ,识别 各 种 模式 ,提供 交互 式 理解 和 进 
行 智能 预测 。 这 种 创新 发 展 的 一 个 例子 就 是 将 人 工 智能 应 用 于 由 传感器 生成 的 数据 , 尤其 是 通 
过 智能 手机 和 其 他 消费 者 设备 所 收集 的 数据 。 运 动 传感器 数据 及 其 他 信息 比如 GPS 信息 ) 
可 提供 大 量 不 同 的 数据 集 。 本 节 最 后 以 常见 的 运动 传感器 为 例 来 说 明 AT 和 传感器 的 综合 应 用 。 
一 个 常见 的 应 用 是 通过 分 析 使 用 的 数据 来 确定 用 户 在 每 个 时 间 段 的 活动 ， 无 论 是 坐姿 、 走 路 、 
跑步 还 是 睡眠 的 情况 下 。 在 活动 跟踪 方面 ， 原 始 数据 通过 轴 向 运动 传感器 得 以 收集 ， 例 如 智能 
手机 、 可 穿戴 设备 和 其 他 便携 式 设备 中 的 加 速度 计 和 陀螺 仪 。 这 些 设备 获取 三 个 坐标 轴 (x、y、 
2) 上 的 运动 数据 ， 以 便于 连续 跟踪 和 评估 活动 。 

对 于 人 工 智能 的 监督 式 学 习 ， 需 要 用 标记 数据 来 训练 “模型 ”， 以 便 分 类 引擎 可 以 使 用 此 
模型 对 实际 用 户 行为 进行 分 类 。 只 获取 原始 传感器 数据 是 不 够 的 。 我 们 观察 到 ， 要 实现 高 度 准 
确 的 分 类 , 需要 仔细 确定 一 些 特征 , 即 系统 需要 被 告知 对 于 区 分 各 个 序列 重要 的 特征 或 者 活动 。 
为 了 进行 活动 识别 ， 指 示 性 特征 可 以 包括 “滤波 信号 ”， 例 如 身体 加 速 〈 来 自传 感 器 的 原始 加 
速度 数据 ) ， 或 “导出 信号 ”， 例 如 高 速 傅 里 叶 变换 (FFT) 值 或 标准 差 计算 。 举 例 来 说 ， 加 
州 大 学 欧文 分 校 CUCD 的 机 器 学 习 数据 库 创建 了 一 个 定义 了 561 个 特征 的 数据 集 ， 这 个 数据 
集 以 30 名 志愿 者 的 6 项 基本 活动 〈 即 站 立 、 坐 姿 、 卧 姿 、 行 走 、 下 台阶 和 上 台阶 ) 为 基础 。 
使 用 默认 的 LibSVM 内 核 训练 的 模型 进行 活动 分 类 的 测试 准确 度 高 达 91.84% 。 在 完成 培训 和 
特征 排名 后 , 选择 最 重要 的 19 项 功能 足以 达到 85.38% 的 活动 分 类 测试 准确 度 。 经 过 对 排名 进 
行 仔细 检查 , 我 们 发 现 最 相关 的 特征 是 频 域 变换 以 及 滑动 窗口 加 速度 原始 数据 的 平均 值 、 最 大 
值 和 最 小 值 。 有 趣 的 是 , 这 些 特征 都 不 能 仅仅 通过 预 处 理 实现 ,传感器 融合 对 于 确保 数据 的 可 
靠 性 十 分 必要 ， 因 此 对 分 类 尤为 实用 。 

2018 年 2 月 ， 谷 歌 宣布 已 经 与 LogMeIn 签订 协议 ， 以 5000 万 美元 收购 LogMeln 旗下 的 
物 联网 部 门 Xively。 根 据 公 告 ， 谷 歌 预计 到 2020 年 将 有 200 亿 台 设备 联网 ， 而 它 可 以 凭借 这 
笔 收 购 布局 物 联网 市 场 。Xively 为 设备 厂商 提供 工具 ， 实 现 设备 联网 功能 ， 同 时 将 设备 与 用 
户 手机 中 的 App 连接 起 来 。 这 将 帮助 Google Cloud 实现 其 物 联 网 野心 : 获得 海量 物 联网 设备 
的 数据 ， 并 进行 存储 与 分 析 。Google Cloud 通过 本 次 收购 将 获得 领先 的 物 联网 技术 、 工 程 技 术 
以 及 Xively 的 设备 管理 、 通 信和 能 力 。 谷 歌 在 2018 EHI CES 上 推出 了 Smart Display 平台 ， 和 希 
望 让 Google Assistant 进入 多 家 厂商 的 产品 中 。 与 谷歌 合作 的 厂商 有 Altec Lansing、Anker、 
Bang & Olufsen、Braven、iHome、JBL、Jensen、LG、 联 想 、Klipsch、Knit Audio、Memorex、 
RIVA Audio 和 索尼 等 。 

通过 传感器 为 用 户 提供 真正 的 个 性 化 体验 已 成 为 现实 , 通过 人 工 智能 , 系统 可 以 利用 由 智 
能 手机 、 可 穿戴 设备 和 其 他 便携 设备 的 传感器 所 收集 的 数据 为 人 们 提供 更 多 深度 功能 。 未 来 几 
E, 一 系列 现在 还 难以 想象 的 设备 和 解决 方案 将 会 得 到 更 多 发 展 。 人 工 智能 和 传感器 为 设计 师 
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和 用 户 打开 了 一 个 充满 激动 人 心 的 机 会 的 新 世界 。 


2.2 BRE 


技术 层 是 在 基础 层 之 上 ， 结 合 软 硬 件 能 力 所 实现 的 针对 不 同 细 分 应 用 开发 的 技术 。 如 图 
2-5 所 示 ， 技 术 层 主要 包括 机 器 学 习 、 计 算 机 视觉 、 语 音 及 自然 语言 处 理 三 个 方面 。 主 要 技术 
领域 包括 图 像 识 别 、 语 音 识 别 、 自 然 语言 处 理 和 其 他 深度 学 习 应 用 等 。 涉 及 的 领域 包括 机 器 视 
觉 、 指 纹 识别 、 人 脸 识别 、 视 网 膜 识别 、 虹 膜 识别 、 掌 纹 识别 、 专 家 系统 、 自 动 规划 、 智 能 搜 
索 、 定 理 证 明 、 博 弈 、 自 动 程序 设计 、 智 能 控制 、 机 器 人 人 学习、 语言 和 图 像 理解 等 。 


主要 以 深度 学 习 、 增 强 学 习 等 算法 研究 
ar 赋予 机 器 自主 学 习 并 提高 性 能 的 
J 








包括 静 动态 图 像 识 别 与 处 理 等 ， 对 目标 
进行 识别 、 测 量 及 计算 














语音 及 自然 语言 处 理 





包括 语音 识别 和 自然 语言 处 理 ， 研 究 语言 的 收集 、 识 别 理解 、 处 理 等 内 容 ， 涉 及 计算 
机 、 语 言 学、 逻辑 学 等 学 科 











25 AI 技术 层 


目前 ， 技 术 层 企 业 在 计算 机 视觉 、 语 音 识别 等 领域 竞争 激烈 。 技 术 层 涵 盖 的 厂商 以 科技 巨 
头 、 传 统 科 研 机 构 及 新 兴 技 术 创业 公司 为 主 。 除 了 综合 性 科技 巨头 外 ,创业 企业 也 依赖 自身 技 
术 的 积累 和 细 分 领域 的 积累 快速 崛起 。 在 发 展 路 径 上 ， 以 2B、2C 或 2B2C 为 主 。 一 方面 ， 面 
向 企业 级 用 户 ， 为 应 用 层 厂 商 提供 技术 支持 ; 另 一 方面 ,研发 相应 的 软件 及 硬件 产品 ， 直 接 面 
对 消费 者 ， 或 者 提供 车 载 、 家 居 等 产品 的 人 机 交互 技术 ， 从 而 满足 用 户 需求 。 

科技 巨头 仍然 掌握 技术 、 数 据 、 资 金 优势 ， 生 态 链 相 对 完整 。 而 传统 技术 厂商 〈 如 语音 识 
别 领域 的 科大 讯 飞 ) 具有 强大 的 科研 背景 ， 掌 握 一 定 的 研发 能 力 ， 同 时 获得 政府 的 支持 ， 与 相 
关 政 府 机 构 合 作 获 取 大 量 的 数据 来 源 ， 强 化 人 工 智能 技术 。 创 业 公 司 深耕 垂直 领域 , 创始 团队 
多 是 技术 专家 ， 掌 握 研发 技术 ， 通 过 融资 等 方式 弥补 资本 不 足 ， 逐 渐 积 累 资金 、 人 才 、 技 术 实 
J, 专攻 细 分 领域 , 可 以 快速 实现 技术 的 落地 , 而 其 技术 上 的 创新 也 弥补 了 传统 技术 提供 商 及 
科技 巨头 的 不 足 ， 能 够 在 竞争 中 实现 技术 的 成 熟 。 














22.4 机 器 学 习 
人 工 智能 、 机 器 学 习 、 深度 学 习 是 我 们 经 常 听 到 的 三 个 热 词 。 关于 三 者 的 关系 , 简单 来 说 ， 
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机 器 学 习 是 实现 人 工 智能 的 一 种 方法 ， 深 度 学 习 是 实现 机 器 学 习 的 一 种 技术 《〈 见 图 2-6) 。 机 
器 学 习 使 计算 机 能 够 自动 解析 数据 、 从 中 学 习 , 然后 对 真实 世界 中 的 事件 做 出 决策 和 预测 ; VR 
度 学 习 是 利用 一 系列 “深层 次 ”的 神经 网 络 模型 来 解决 更 复杂 问题 的 技术 。 








图 2-6 ”人工 智 能 、 机 器 学 习 和 深度 学 习 的 包含 关系 


人 工 智能 的 核心 是 通过 不 断 地 进行 机 器 学 习 ， 而 让 自己 变 得 更 加 智能 。2015 年 以 来 ， 人 
工 智能 开始 大 爆发 。 一 方面 是 由 于 巨头 整合 了 AI 开源 平台 和 芯片 ， 技 术 快 速 发 展 ，GPU 的 广 
泛 应 用 ,使 得 并 行 计算 变 得 更 快 、 更 便宜 、 更 有 效 ; 另 一 方面 在 于 云 计算 、 云 存储 的 发 展 和 当 
下 海量 数据 的 爆发 ， 各 类 图 像 数 据 、 文 本 数据 、 交 易 数 据 等 为 机 器 学 习 黄 定 了 基础 。 机 器 学 习 
利用 大 量 的 数据 来 “训练 ”, 通过 各 种 算法 从 数据 中 学 习 如 何 完成 任务 , 使 用 算法 来 解析 数据 、 
从 中 学 习 ， 然 后 对 真实 世界 中 的 事件 做 出 决策 和 预测 。 

深度 学 习 是 机 器 学 习 的 重要 分 支 , 作为 新 一 代 的 计算 模式 , 深度 学 习 力 图 通过 分 层 组 合 多 
个 非 线性 函数 来 模拟 人 类 神经 系统 的 工作 过 程 ,其 技术 的 突破 掀起 了 人 工 智能 的 新 一 轮 发 展 浪 
潮 。 深 度 学 习 的 人 工 神经 网 络 算法 与 传统 计算 模式 不 同 , 本质 上 是 多 层次 的 人 工 神经 网 络 算法 ， 
即 模仿 人 脑 的 神经 网 络 , 从 最 基本 的 单元 上 模拟 了 人 类 大 脑 的 运行 机 制 , 它 能 够 从 输入 的 大 量 
数据 中 自发 地 总 结 出 规律 ， 再 举一反三 ， 应 用 到 其 他 的 场景 中 。 因 此 ， 它 不 需要 人 为 地 提取 所 
需 解决 问题 的 特征 或 者 总 结 规律 来 进行 编程 。 

深度 学 习 的 典型 代表 是 Google AlphaGo, Mi AlphaGo Zero 采用 纯 强 化 学 习 的 方法 进一步 
扩展 了 人 工 智能 技术 , 不 需要 人 类 的 样 例 或 指导 , 不 提供 基本 规则 以 外 的 任何 领域 知识 , 在 它 
自我 对 弈 的 过 程 中 ， 神 经 网 络 被 调整 、 更 新 ， 以 预测 下 一 个 落 子 位 置 以 及 对 局 的 最 终 赢家 ， 并 
以 100: 0 的 战绩 击败 AlphaGo。 深 度 学 习 使 得 机 器 学 习 能 够 实现 众多 的 应 用 ， 使 所 有 的 机 器 
辅助 功能 成 为 可 能 ， 拓 展 了 人 工 智 能 的 领域 范围 。 

深度 学 习 系 统一 方面 需要 利用 庞大 的 数据 对 其 进行 训练 , 另 一 方面 系统 中 存在 上 万 个 参数 
需要 调整 , 需要 平台 对 现 有 数据 及 参数 进行 整合 , 向 开发 者 开放 , 实现 技术 应 用 价值 的 最 大 化 ， 
因此 在 芯片 和 大 数据 之 外 ，IT 巨头 争 相 开源 人 工 智能 平台 ， 各 种 开源 深度 学 习 框 架 层出不穷 。 
2015 年 以 来 ， 全 球 人 工 智能 顶尖 巨头 陆续 开源 自身 最 核心 的 人 工 智 能 平台 ， 其 中 包括 Caffe. 
CNTK, MXNet, Neon, TensorFlow, Theano 和 Torch 等 。 

人 工 智能 技术 正在 逐渐 发 展 , 距离 真正 的 成 熟 期 还 有 很 长 的 路 要 走 , 而 单单 依靠 有 限 的 企 
业 去 推动 整个 技术 的 发 展 力量 相对 有 限 ,通过 开源 人 工 智 能 平台 ,能 够 群策群力 , 将 更 多 的 优 
秀 人 才 调 动 到 人 工 智能 系统 的 开发 中 。 开 源 人 工 智能 平台 可 以 增强 云 计算 业务 的 吸引 力 和 竞争 
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力 ， 比 如 用 户 使 用 谷歌 开源 的 TensorFlow 平台 训练 和 导出 自己 所 需要 的 人 工 智 能 模型 ， 然 后 
把 模型 导入 TensorFlowServing 对 外 提供 预测 类 云 服务 ， 实 质 上 是 将 开源 深度 学 习 工 具 用 户 直 
接 变 为 其 云 计 算 服 务 的 用 户 , 现 阶 段 包括 阿里 、 亚马逊 在 内 的 云 计算 服务 商都 将 机 器 学 习 平 台 
典 入 其 中 ， 作 为 增强 其 竞争 实力 和 吸引 更 多 用 户 的 方式 。 同 时 ,开放 的 开发 平台 将 带 来 下 游 应 
用 的 蓬勃 发 展 。 开 源 平 台 的 建立 在 推动 技术 成 熟 的 同时 ， 对 科技 巨头 来 说 ， 既 整合 了 人 才 ， 又 
可 以 第 一 时 间 将 开发 成 果 接 入 自己 的 产品 中 , 实现 研发 到 商业 化 的 快速 过 渡 , 从 而 在 人 工 智能 
市 场 中 占据 先 发 优 势 。 

谷歌 作为 人 工 智能 领域 的 科技 巨头 , 在 软 硬 件 领域 都 有 布局 ， 通 过 结合 开源 平台 、 智 能 芯 
片 和 相关 硬件 ， 谷 歌 建立 了 完整 的 人 工 智能 生态 。 其 中 ， 谷 歌 自主 研发 的 深度 学 习 开源 平台 
TensorFlow 可 编写 并 编译 执行 机 器 学 习 算法 代码 ， 并 将 机 器 学 习 算法 变 成 符号 表达 的 各 类 图 
表 。TensorFlow 目前 已 应 用 于 谷歌 搜索 、 谷 歌 翻译 等 服务 。 同 时 ， 大 量 开 发 者 也 接 入 到 平台 
中 ， 成 为 主流 的 深度 学 习 框架 ， 在 2017 年 ， 谷 歌 进一步 推出 了 TensorFlowLite， 支 持 移动 和 
其 他 终端 设备 ， 谷 歌 已 成 为 人 工 智能 领域 不 可 或 缺 的 巨头 。 本 书后 面 将 以 TensorFlow 为 基础 
阐述 机 器 学 习 技 术 。 


2.22 语音 识别 与 自然 语言 处 理 
交互 模式 的 变革 贯穿 了 整个 IT 产业 的 发 展 史 ， 语 音 交互 很 有 可 能 成 为 下 一 代 人 机 交互 的 
主要 模式 〈 见 表 2-2) 。 











822 交互 模式 的 变革 
[eume [pos — — [mwememu [er 
[znat 。  [wueet ce [en | 
[wes Jer dre — [xr mh — | 

语音 识别 与 自然 语音 处 理 是 机 器 能 够 “ 听 懂 ”用 户 语言 的 主要 技术 基础 ， 其 中 语音 识别 注 
重 对 用 户 语言 的 感知 ， 目 前 在 中 文 语音 识别 上 ， 国 内 已 经 达到 97% 的 语音 识别 准确 率 ， 这 要 
归功 于 深度 神经 网 络 的 应 用 、 算 力 的 提高 以 及 大 数据 的 积累 语音 识别 是 机 器 感知 用 户 的 基础 ， 
在 听 到 用 户 的 指令 之 后 , 更 为 重要 的 是 如 何 让 机 器 懂得 指令 的 意义 ,这 就 需要 自然 语言 处 理 将 
用 户 的 语音 转化 为 机 器 能 够 反应 过 来 的 机 器 指令 ,包括 自 然 语言 理解 、 多 轮 对 话 理解 、 机 器 翻 
译 技术 等 。 对 于 自然 语言 处 理 方面 ,虽然 深度 学 习 能 起 到 的 作用 还 有 待 观察 ,但 在 语义 理解 和 
语言 生成 等 领域 都 有 了 重要 突破 。 如 图 2-7 所 示 ,很 多 提供 语音 技术 服务 的 公司 也 突破 了 原 有 
的 单纯 语音 识别 或 者 语义 理解 的 业务 框架 ， 开 始 提供 整体 的 智能 语音 交互 产品 。 


=> = E- 


图 2-7 语音 交互 过 程 
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1. 语音 识别 技术 
语音 识别 技术 已 趋 于 成 熟 . 语 音 识别 的 目标 是 将 人 类 语音 表达 的 内 容 转换 为 机 器 可 读 的 输 
入 ， 用 于 构建 机 器 的 “听觉 系统 ”。 语 音 识别 技术 经 历 了 长 达 60 年 的 发 展 。 近 年 来 ， 机 器 学 
习 和 深度 神经 网 络 的 引入 ， 使 得 语音 识别 的 准确 率 提升 到 足以 在 实际 场景 中 应 用 。 早 在 2016 
年 年 初 , 美国 麻 省 理工 学 院 (MIT) 主办 的 知名 科技 期 刊 《 麻 省 理工 科技 评论 》 评 选 出 了 “2016 
年 十 大 突破 技术 ”， 语 音 识别 位 列 第 三 ， 与 其 他 技术 一 起 “到 达 一 个 里 程 碑 式 的 阶段 或 即将 到 
达 这 一 阶段 ”。 
深度 神经 网 络 声学 模型 的 几 个 重大 发 展 阶段 如 下 : 
€ 20064, Geoffrey Hinton 提出 深度 置信 网 络 (DBN ) ， 促 进 了 深度 神经 网 络 的 研究 。 
€ 2009 #, Geoffrey Hinton 将 深度 神经 网 络 应 用 于 声音 的 声学 建 模 ， 当 时 在 TIMIT 上 
获得 了 很 好 的 结果 。 
€ 2011 年 底 ， 微 软 研究 院 又 把 深度 神经 网 络 技术 应 用 在 了 大 词汇 连续 识别 任务 上 ， 大 
大 降低 了 语音 识别 的 错误 率 。 从 此 以 后 , 基于 深度 神经 网 络 声学 模型 技术 的 研究 变 得 
异常 火热。 


微软 2016 年 10 月 发 布 的 Switchboard 语音 识别 测试 中 , 更 是 取得 了 5.9% 的 词 错误 率 , 第 
一 次 实现 了 和 人 类 一 样 的 识别 水 平 ， 这 是 一 个 历史 性 突破 。 

语音 识别 整个 过 程 ( 见 图 2-8) 包含 语音 信号 预 处 理 、 声 学 特征 提取 、 声 学 和 语言 模型 建 
模 、 解 码 等 多 个 环节 。 简 单 来 说 ， 声 学 模型 用 来 模拟 发 音 的 概率 分 布 ， 语 言 模型 用 来 模拟 词语 
之 间 的 关联 关系 ， 而 解码 阶段 就 是 利用 上 述 两 个 模型 将 声音 转化 为 文本 。 











图 2-8 语音 识别 技术 的 运作 流程 


深度 神经 网 络 声学 模型 主要 应 用 于 声学 、 语 言 模型 建 模 、 解 码 等 各 个 主要 环节 , 模型 主要 
包括 深度 神经 网 络 、 长 短 时 记忆 网 络 (LSTM) 、 双 向 长 短 时 记忆 网 络 CBLSTMO. 、 深 度 卷 
积 神经 网 络 (Deep CNN) 、Residual/Highway 网 络 等 模型 ， 具 体 特点 见 表 2-3. 
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R23 深度 神经 网 络 各 部 分 及 其 特点 








提升 了 模型 的 建 模 能 力 

长 短 时 记忆 网 络 一 种 特殊 的 循环 神经 网 络 (RNN) 。 通 过 输入 门 、 输 出 门 和 遗忘 门 可 以 更 好 地 控 
制 信息 的 流动 和 传递 ， 具 有 长 短 时 记忆 能 力 ， 并 在 一 定 程度 上 缓解 RNN 的 梯度 
消散 和 梯度 爆炸 问题 

双向 长 短 时 记忆 网 络 ”| 相 比 LSTM 还 考虑 了 反 向 时 序 信息 的 影响 ， 即 “未 来 ”对 “现在 ”的 影响 ， 这 在 
语音 识别 中 也 是 非常 重要 的 








总 之 ,语音 识别 作为 一 类 重要 的 基础 技术 ， 应 用 十 分 广泛 ， 并 且 己 有 不 少 产品 为 人 们 所 
熟知 ， 语 音 识 别 产业 的 增长 主要 靠 渗 透 率 的 提升 和 应 用 的 突破 ， 主 要 的 应 用 包括 语音 助手 、 
语音 输入 、 语 音 搜索 等 ， 可 应 用 在 各 类 移动 APP 应 用 和 终端 应 用 等 对 人 机 交互 有 较 高 要 求 
的 领域 。 对 于 语音 识别 技术 而 言 ， 率 先 发 展 起 来 的 服务 机 器 人 和 语音 助手 已 占据 数据 积累 的 
领先 地 位 ， 在 家 居 、 出 行 、 运 动 等 多 个 场景 中 ， 语 音 交 互 正 在 爆发 ， 智 能 音箱 、 智 能 车 载 、 
智能 手表 等 产品 中 ， 通 过 接 入 语音 交互 技术 ， 实 现 随身 陪伴 、 语 音 助理 的 功能 。 国 内 现 已 涌 
现 出 一 批发 展 较 好 的 智能 语音 相关 企业 ， 其 中 技术 领先 和 产品 成 熟 的 企业 主要 有 科大 讯 飞 、 
百度 、 小 米 等 。 语 音 识别 经 过 几 年 的 技术 积累 已 相对 成 熟 ， 厂 商 仍 在 发 展 方言 识别 等 更 为 精 
准 的 识别 方式 。 

2. 自然 语言 处 理 

简单 地 说 ， 自 然 语 言 处 理 就 是 用 计算 机 来 处 理 、 理 解 以 及 运用 人 类 语言 ， 属 于 人 工 智能 的 
一 个 分 支 , 是 计算 机 科学 与 语言 学 的 交叉 学 科 。 实现 人 机 间 自 然 语言 通信 意味 着 要 使 机 器 既 能 
理解 自然 语言 文本 的 意义 ,也 能 以 自然 语言 文本 来 表达 给 定 的 意图 、 思 想 等 。 前 者 称 为 自然 语 
言 理解 ， 后 者 称 为 自然 语言 生成 。 

无 论 是 实现 自然 语言 理解 ,还 是 自然 语言 生成 ,都 十 分 困难 。 从 现 有 的 理论 和 技术 现状 来 
看 ,通用 的 、 高 质量 的 自然 语言 处 理 系 统 仍然 是 较 长 期 的 努力 目标 , 但 是 针对 一 定 应 用 ,具有 
相当 自然 语言 处 理 能 力 的 实用 系统 已 经 出 现 ， 有 些 已 商品 化 ， 甚 至 开始 产业 化 。 

深度 学 习 、 算 力 和 大 数据 的 爆发 极 大 地 促进 了 自然 语言 处 理 技术 的 发 展 。 表 2-4 中 是 几 种 
常用 的 深度 神经 网 络 NLP 模型 。 


表 2-4 几 种 常用 的 深度 神经 网 络 NLP 模型 























Word2vec Word2vec 可 以 在 百 万 数量 级 的 词典 和 上 亿 的 数据 集 上 进行 高 效 地 训练 。 该 
工具 得 到 的 训练 结果 为 词 向 量 Cword embedding) ， 可 以 很 好 地 度量 词 与 词 
之 间 的 相似 性 

循环 神经 网 络 RNN 现在 已 经 是 NLP 任务 最 常用 的 方法 之 一 , RNN 模型 的 优势 之 一 就 是 可 


(Recurrent Neural Networks) | 以 有 效 利 用 之 前 传 入 网 络 的 信息 


门 控 递 归 单 元 目的 是 为 RNN 模型 在 计算 隐 层 状态 时 提供 一 种 更 复杂 的 方法 。 这 种 方法 将 
(Gated Recurrent Units) 使 模型 能 够 保持 更 久远 的 信息 


NLP 领域 还 有 很 多 其 他 种 类 的 深度 学 习 模型 ， 有 时 候 递 归 神 经 网 络 和 卷 积 神经 网 络 也 会 
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用 在 NLP 任务 中 ， 但 没有 RNN 这 么 广泛 。 总 之 ， 在 自然 语言 处 理 领域 ， 多 轮 对 话 理解 日 益 
完善 , 但 语义 理解 仍然 具有 一 定 的 缺陷 ， 距离 机 器 理解 人 类 ,实现 自然 的 人 机 交互 还 有 一 些 路 
要 走 。 


2.23 ”计算 机 视觉 


视觉 是 人 脑 最 主要 的 信息 来 源 , 计算 机 视觉 是 指 通过 计算 机 或 图 像 处 理 器 及 相关 设备 来 模 
拟人 类 视觉 ， 以 让 机 器 获得 相关 的 视觉 信息 并 加 以 理解 ， 是 机 器 能 够 “看 懂 ” 周围 环境 的 计算 
基础 ， 最 终 解决 机 器 代替 人 眼 的 问题 。 

从 技术 流程 来 看 , 计算 机 视觉 是 将 识别 对 象 ( 如 图 像 ) 转换 成 数字 信号 进行 分 析 处 理 的 技 
术 。 根 据 识别 的 种 类 不 同 又 分 为 图 像 识别 、 人 脸 识别 、 文 字 识别 等 。 通 过 计算 机 视觉 技术 可 以 
对 图 片 、 实 物 或 视频 中 的 物体 进行 特征 提取 和 分 析 ， 从 而 为 后 续 动 作 提供 关键 的 感知 信息 。 从 
技术 流程 来 看 ， 视 觉 识 别 通常 需要 几 个 过 程 : 图 像 采 集 、 目 标 提 取 、 目 标识 别 、 目 标 分 析 ， 如 


图 2-9 所 示 。 
Cc 


模型 建立 





图 像 捕获 特征 提取 


mere =p "RT y RX =p MAL 
图 像 存储 ER oH 判断 匹配 行为 识别 


图 2-9 视觉 识别 的 几 个 过 程 

对 于 特征 识别 ， 有 生物 特征 识别 技术 ， 识 别人 类 的 指纹 、 虹 膜 、 人 脸 等 ， 有 OCR 识别 技 
术 ， 识 别 图 片 和 文字 ;有 物体 识别 技术 ， 用 于 识别 图 片 或 视频 中 的 物体 。 

1. 视频 分 析 

在 进行 视频 识别 与 分 析 时 ， 需 要 使 用 前 端 摄 像 头 设备 收集 和 传输 数据 ， 同 时 需要 通 
过 大 数据 训练 ， 具 备 云 计 算 能 力 的 深度 学 习 图 像 分 析 系 统 来 实时 进行 视频 检测 和 数据 分 
析 《〈 见 图 2-10) 。 由 于 机 器 不 疲劳 ， 而 且 可 以 全 面 识 别 整 帧 图 像 信息 ， 通 过 使 用 该 技术 处 理 
海量 监控 视频 ， 可 大 大 降低 交管 、 公 安 部 门 的 监控 负担 ， 具 体 的 应 用 场景 包括 车 辆 识别 、 非 法 
停车 检测 、 嫌 犯 追踪 等 。 


图 2-10 视频 图 像 分 析 
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在 深度 学 习 出 现 后 , 机 器 视觉 的 主要 识别 方式 发 生 重大 转变 , 自学 习 状 态 成 为 视觉 识别 的 
主流 ， 即 机 器 从 海量 数据 中 自行 归纳 特征 ， 然 后 按照 该 特征 规律 进行 识别 ， 图 像 识 别 的 精准 度 
也 得 到 极 大 的 提升 〈 目 前 到 了 95% DLE) 。 机 器 不 再 只 是 通过 特定 的 编程 完成 任务 ， 而 是 通 
过 不 断 学 习 来 掌握 本 领 ， 这 主要 依赖 高 效 的 模型 算法 进行 大 量 数据 训练 。 

近年 来 , 与 计算 机 视觉 相关 的 视频 监控 和 身份 识别 等 行业 的 市 场 规模 均 逐 渐 扩大 , 伴随 着 
技术 的 发 展 , 计算 机 视觉 技术 和 应 用 逐渐 趋 于 成 熟 , 被 广泛 应 用 到 金融 、 安 防 、 电 商 等 场景 中 ， 
技术 进一步 实现 场景 化 落地 ,计算 机 视觉 也 成 为 目前 人 工 智能 领域 最 为 火热 和 应 用 最 为 广泛 的 
领域 之 一 。 国 内 企业 ， 尤 其 是 创业 公司 深耕 技术 能 力 ， 已 具备 国际 领先 的 技术 水 平 ， 这 些 典 型 
企业 包括 旷 视 科技 、 商 汤 科 技 、 云 升 科技 等 。 计 算 机 视觉 厂商 主要 走 技术 和 解决 方案 提供 商 的 
路 径 ， 通 过 研究 通用 型 的 技术 ,深耕 图 像 处 理 和 图 像 分 析 ， 提 供 软 硬 件 全 套 服务 ， 开 放 程序 接 
口供 其 他 厂商 使 用 ， 比 如 商 汤 科 技 、 旷 视 科 技 。 另 外 ， 一 部 分 厂商 走 技术 应 用 的 路 径 ， 将 技术 
接 入 不 同 的 领域 和 场景 中 ， 以 技术 为 基础 实现 场景 落地 ,为 用 户 提供 服务 ， 比 如 云 升 科技 的 公 
安立 体 防护 系统 。 

2. 人 脸 识 别 

人 脸 识 别 是 基于 人 的 脸 部 特征 信息 进行 身份 识别 的 一 种 识别 技术 。 人 脸 识 别 技术 被 广泛 应 
用 于 人 金融、 安防 、 交 通 、 教 育 等 相关 领域 ， 主 要 应 用 场景 包括 企业 、 住 宅 的 安全 管理 ， 公 安 、 
司法 和 刑侦 的 安全 系统 、 自 助 服务 等 ， 刷 脸 支付 、 刷 脸 进 站 等 项 目 逐渐 实现 。 人 脸 识别 包括 
1:1 的 人 脸 对 比 和 1:N 的 人 脸 对 比 。1:1 主要 指 用 户 真实 的 脸 部 信息 与 用 户 提交 的 身份 证 信息 
进行 比 对 ， 常 见于 银行 等 金融 机 构 和 公安 系统 。1:N 更 常见 于 刑侦 和 国家 安防 领域 ， 能 够 通过 
与 faceID 库 的 对 比 ,快速 找到 犯罪 分 子 或 失踪 人 员 ，1:N 识别 精度 的 难度 要 远 远 高 于 1:1 人 脸 
识别 。 厂商 也 针对 LN 的 精确 度 做 了 技术 深耕 , 百度 曾 宣布 百度 大 脑 的 1:N 人 脸 识别 监测 准确 
率 已 达 99.7%。 目 前 ， 人 脸 关键 点 检测 技术 可 以 精确 定位 面部 的 关键 区 域 ， 还 可 以 做 到 支持 一 
定 程 度 的 遮挡 以 及 多 角度 人 脸 , 活体 检测 及 红外 光 识别 技术 有 效 解决 了 照片 、 手 机 视频 等 二 维 
人 像 的 作 整 行为 ， 使 3D 人 脸 识 别 的 准确 率 大 幅度 提升 。 但 双胞胎 识别 、 整 容 和 易 容 前 后 的 识 
别 依然 是 人 脸 识别 的 难点 , 因此 需要 虹膜 识别 等 其 他 识别 技术 进行 补充 。 人 脸 识 别 技术 另 一 个 
关键 层面 在 于 facelD 库 的 建立 ，3D 人 脸 识别 数据 采集 相对 困难 ， 需 采集 的 数据 量 十 分 巨大 ， 
对 计算 机 计算 存储 能 力 要 求 较 高 , faceID 库 的 数据 量 是 人 脸 识别 技术 算法 训练 的 基础 ， 数 据 越 
多 ， 相 应 的 准确 度 才 会 越 高 。 各 厂商 仍 需 继续 扩充 自身 的 faceID 库 规模 。 

在 美国 ， 亚 马 逊 最 近 推出 了 人 脸 识别 系统 Recognition， 识 别 一 个 人 脸 只 需要 几 分 钟 。 亚 
马 逊 公司 已 经 开始 通过 云 计算 模式 推出 计算 机 视觉 Recognition 功能 ， 向 美国 警方 提供 了 基于 
机 器 学 习 的 人 脸 识别 服务 。 人 脸 识别 技术 不 再 是 一 个 高 价 的 服务 了 。 

总 之 ， 随 着 计算 机 技术 的 发 展 ， 人 类 开始 能 够 进行 复杂 的 信息 处 理 ， 并 通过 计算 机 实 
现 不 同 模式 〈 文 、 声 音 、 人 物 、 物 体 等 ) 的 自动 识别 。 但 当前 不 存在 一 种 单一 模型 和 单一 
技术 能 够 解决 所 有 的 模式 识别 问题 ， 而 是 需要 在 具体 场景 中 使 用 多 种 算法 和 模型 。 还 有 ， 
计算 机 视觉 可 以 与 其 他 技术 结合 进行 综合 应 用 ， 比 如 与 医疗 结合 形成 疾病 辅助 监测 ， 与 汽 
车 结合 形成 自动 驾驶 。 
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2.2 应 用 层 


人 工 智能 给 各 行 各 业 带 来 了 变革 与 重 构 ， 一 方面 将 AI 技术 应 用 到 现 有 的 产品 中 ， 创 新 产 
品 ， 发 展 新 的 应 用 场景 ;， 另 一 方面 AI 技术 的 发 展 也 对 传统 行业 造成 颠覆 ， 人 工 智 能 对 人 工 的 
替代 成 为 不 可 逆转 的 发 展 趋势 ,尤其 在 工业 、 农 业 等 简单 、 重 复 、 可 程序 化 强 的 环节 中 ， 而 在 
国防 、 医疗 、 驾驶 等 行业 中 ， 人 工 智能 提供 能 够 适应 复杂 环境 , 更 为 精准 、 高 效 的 专业 化 服务 ， 
从 而 取代 或 者 强化 传统 的 人 工 服务 ， 服 务 形式 在 未 来 将 趋 于 个 性 化 和 系统 化 。 

人 工 智能 与 行业 的 深度 结合 ,可 以 实现 传统 行业 的 智能 化 , 包括 AH 人 金融、AI+ 医 疗 、AI+ 
安防 、AI+ 家 居 、AI+ 教 育 等 ， 如 图 2-11 所 示 。 在 各 个 垂直 领域 中 ， 传 统 厂商 具备 产业 链 、 渠 
道 、 用 户 数据 优势 ， 正 通过 接 入 互联 网 和 AT 搭载 人 工 智能 的 浪潮 进行 转型 。 创 业 公司 深耕 垂 
直 领 域 ,快速 崛起 ， 致 力 于 推动 技术 进步 、 场 景 落地 。 应 用 层 厂商 更 多 直接 面 对 用 户 , 或 者 遵 
18 2B. 2C 的 发 展 路 径 ， 相 较 于 技术 层 和 基础 层 ， 具 有 更 多 的 用 户 数据 ， 也 需要 进一步 打磨 产 
品 ， 满 足 用 户 需求 。 








图 2-11 AI 应 用 场景 


对 于 人 工 智能 的 应 用 来 说 ， 技 术 平台 、 产 业 应 用 环境 、 市 场 、 用 户 等 因素 都 对 人 工 智能 的 
产业 化 应 用 市 场 有 很 大 的 影响 如何 实现 人 工 智能 产业 自身 的 创新 并 应 用 到 具体 场景 中 将 会 是 
各 行业 发 展 的 关键 点 。 目 前 ， 人 工 智 能 技术 的 主要 应 用 场景 包括 但 不 限于 : 安防、 制造 业 、 服 
务 业 、 金 融 、 教 育 、 传 媒 、 法 律 、 医 疗 、 家 居 、 农 业 、 汽 车 等 。 人 工 智 能 技术 日 益 成 熟 ， 商 业 
化 场景 逐渐 落地 ， 智 能 家 居 、 人 金融 、 医 疗 、 驾 驶 、 安 防 等 多 个 行业 成 为 目前 主要 的 应 用 场景 。 


231 安防 


安防 的 应 用 场景 较 多 ， 小 到 身份 识别 、 家 居 安 防 ， 大 到 反恐 国防 。 现 代 社会 人 口 流动 大 ， 
中 产 阶级 逐渐 崛起 , 用户 财 产 逐 渐 积 累 ， 而 收入 增多 的 同时 带 来 的 是 风险 的 加 大 , 用 户 安全 性 
缺失 ， 安 防 成 为 用 户 的 刚 需 。 身 份 识别 手 段 的 多 样 性 对 于 安防 意义 重大 , 因此 安防 领域 对 于 图 
像 识别 的 要 求 更 高 ， 也 要 求 更 多 的 手段 通过 多 维度 来 进行 识别 ， 如 图 2-12 所 示 ，AI 技术 的 进 
步 可 以 大 大 提高 身份 识别 手段 的 多 样 性 与 准确 率 , 对 于 安防 的 意义 重大 , 尤其 是 安防 在 国防 安 
全 领域 的 应 用 ， 具 有 国家 战略 意义 。 

在 视频 监控 技术 飞速 发 展 的 今天 , 视频 监控 画面 的 信息 已 成 海量 , 远 远 超过 了 人 力 所 能 进 
行 的 有 效 处 理 范围 。 传 统 采用 人 工 回 放 录 像 取 证 的 方式 具有 效率 低下 、 容易 出 错 的 缺点 。 而 人 
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工 智能 技术 恰好 具有 处 理 海量 信息 的 能 力 ， 也 能 在 技术 的 基础 上 实现 实时 监控 、 基 准 判断 。 智 
能 视频 分 析 (Intelligent Video Analysis, IVA) 技术 是 解决 海量 视频 数据 处 理 的 有 效 途 径 。IVA 
采用 计算 机 视觉 方式 ， 主 要 应 用 于 两 个 方面 ， 一 是 基于 特征 的 识别 ， 主 要 用 于 车 牌 识别 、 人 脸 
识别 。 特 征 识别 与 视频 智能 分 析 应 用 于 安防 体系 中 ， 提 高 了 安防 的 时 效 性 、 安 全 性 和 精准 度 。 
二 是 行为 分 析 技 术 , 包括 人 数 管控 、 个体 追 踪 、 禁 区 管控 、 异 常 行为 分 析 等 ， 可 以 应 用 到 监测 
交通 规则 的 遵守 、 周 界 防范 、 物 品 遗 留 丢 失 检 测 、 人 员 密 度 检测 等 。 通 过 对 视频 内 的 图 像 序列 
进行 定位 、 识 别 和 追踪 ,智能 视频 分 析 能 够 做 出 有 效 分 析 和 判断 ， 从 而 实现 实时 监控 并 上 报 异 
常 ,使 得 安防 由 被 动 防范 向 提前 预警 方向 发 展 , 将 实现 对 危险 分 子 的 主动 识别 ,安防 行为 由 被 
动向 主动 转变 。 








1 其 
1 进行 采 保 编码 





图 2-12 安防 中 的 图 像 识别 技术 


从 应 用 领域 来 看 ， 目 前 平安 城市 、 智 能 交通 仍然 是 安防 行业 最 大 的 应 用 领域 , 与 政府 公安 
相关 的 交通 ,道路 视频 监控 仍然 是 安防 行业 最 重要 的 应 用 环节 。 计 算 机 视觉 广泛 应 用 于 飞机 场 、 
火车 站 等 公共 场合 ， 在 大 规模 视频 监控 系统 中 可 实现 实时 抓拍 人 脸 、 布 控 报 警 、 属 性 识别 、 统 
计 分 析 、 重 点 人 员 轨 迹 还 原 等 功能 ， 并 做 出 及 时 有 效 的 智能 预警 。 且 对 于 抓获 有 作案 前 科 的 惯 
犯 帮助 很 大 ， 目 前 多 应 用 于 公安 事前 、 事 中 、 事 后 敏感 人 员 布 控 ， 失踪 人 员 查 找 等 。 安 全 布防 
需要 消耗 大 量 的 警力 资源 ， 尤 其 是 运动 会 、 国 家 会 议 、 演 唱 会 等 重点 区 域 和 重点 活动 的 安防 
其 中 已 经 开始 出 现 人 工 智能 产品 的 身影 ， 包括 实时 监测 系统 、 巡 逻 机 器 人 、 排 爆 机 器 人 等 ， 未 
来 这 些 机 器 人 也 将 会 更 多 地 替代 传统 安防 体系 中 重复 且 低 效 的 工作 ， 节 省 警力 资源 。 

有 必要 指出 的 是 , 安防 体系 中 存储 的 信息 将 呈 指 数 级 增长 ， 需 要 大 数据 平台 及 其 配套 的 硬 
件 设 备 进行 整合 。 


232 金融 


AI 在 金融 领域 的 应 用 主要 集中 在 投资 决策 辅助 、 风 控 与 智能 支付 三 个 方面 。 在 投资 决策 
辅助 方面 , 人 工 智能 技术 将 协助 金融 工作 者 从 数 以 万 计 的 信息 中 迅速 抓 取 有 效 信息 , 并 进一步 
对 数据 进行 分 析 , 利用 大 数据 引擎 技术 、 自 然 语 义 分 析 技 术 等 自动 准确 地 分 析 与 预测 各 市 场 的 
行情 走向 ， 从 而 实现 信息 的 智能 筛选 与 处 理 ， 辅 助 工作 人 员 进 行 决 策 。 在 风 控 方面 ， 人 工 智能 
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人 工 智能 与 大 数据 技术 导论 


也 能 


帮助 金融 机 构建 立 金融 风 控 平台 ,进行 风 控 管理 ,实现 对 投资 项 目的 风险 分 析 和 决策 、 个 


人 征 信 评级 、 信 用 卡 管理 等 。 在 智能 支付 领域 中 , 利用 人 工 智能 的 人 脸 识 别 、 声 纹 识别 技术 可 
实现 “ 刷 脸 支付 ”或 者 “语音 支付 ”。 


金融 行业 与 整个 社会 存在 巨大 的 交织 网 络 , 在 长 期 的 发 展 过 程 中 沉淀 了 海量 数据 , 如 客户 


身份 数据 、 资 产 负债 情况 数据 、 交 易 信息 数据 等 ,金融 业 对 数据 的 强 依赖 性 为 人 工 智 能 技术 应 
用 到 金融 领域 做 好 了 准备 。 按 金融 业务 执行 前 端 、 中 端 、 后 端的 模块 来 看 ， 人 工 智能 在 金融 领 
域 的 应 用 场景 主要 有 智能 客服 、 智 能 身份 识别 、 智 能 营销 、 智 能 风 控 、 智 能 投 顾 、 智 能 量化 交 
易 等 。 





身份 认证 主要 通过 人 脸 识 别 、 指 纹 识 别 、 声 纹 识 别 、 虹 膜 识 别 等 生物 识别 技术 快速 提取 客 


户 的 特征 。 近 年 来 ， 金 融 机 构 对 远程 身份 识别 、 远 程 获 客 需 求 日 益 增加 ， 而 人 脸 信息 凭借 易于 
采集 、 较 难 复制 和 盗 取 、 自 然 直 观 等 优势 ， 在 金融 行业 中 的 应 用 不 断 增 加 。 人 脸 识别 可 实现 客 
户 “ 刷 脸 ” 即 可 开户 、 登 录 账 户 、 发 放贷 款 等 ， 让 金融 机 构 远程 获 客 和 营销 成 为 可 能 。 在 互联 
网 金融 领域 ，“ 刷 脸 ” 也 可 以 应 用 到 刷 脸 登录 、 刷 脸 验 证 、 刷 脸 支 付 等 诸多 领域 。 同 时 ， 人 脸 
识别 可 以 成 为 银行 安全 防 控 手段 的 有 效 选 择 。 银 行 安防 的 难点 之 一 是 在 动态 场景 下 完成 多 个 移 
动 目标 的 实时 监控 , 人 脸 识 别 技术 在 银行 营业 厅 等 人 员 密 集 的 区 域 可 有 效 实现 多 目标 实时 在 线 
检索 、 比 对 ， 在 ATM 自助 设备 、 银 行 库 区 等 多 个 场景 下 都 可 以 应 用 。2015 年 ， 马 云 在 德国 汉 
诺 威 消费 电子 、 信 息 及 通信 博览 会 上 演示 了 蚂蚁 金 服 的 扫 脸 技术 ,并 完成 一 笔 淘宝 购买 , 支付 
宝 先 后 将 人 脸 识 别 技术 应 用 于 用 户 登录 、 实 名 认证 、 找 回 密码 、 支 付 风 险 校 验 等 场景 智能 身份 
识别 中 , 并 且 日 益 成 熟 。 中 国人 民 银 行 发 布 《 中 国人 民 银 行 关于 优化 企业 开户 服务 的 指导 意见 》 
(银发 (2017) 288 号 ) ， 对 新 设 企业 开 立 人 民 币 银行 结算 账户 服务 提出 意见 。 央 行 鼓 励 银 行 
积极 运用 技术 手段 提升 账户 审核 水 平 ， 包 括 鼓 励 银行 将 人 脸 识别 、 光 学 字符 识别 COCR) ~ 
二 维 码 等 技术 手段 嵌入 开户 业务 流程 , 作为 读 取 、 收集 以 及 核验 客户 身份 信息 和 开户 业务 处 理 
的 辅助 手段 。 


人 工 智能 技术 可 以 助力 金融 行业 形成 标准 化 、 模 型 化 、 智 能 化 、 精 准 化 的 风险 控制 系统 ， 


帮助 金融 机 构 、 金 融 平台 及 相关 监管 层 对 存在 的 金融 风险 进行 及 时 有 效 的 识别 和 防范 。 如 图 
2-13 所 示 ， 人 工 智能 应 用 于 金融 风险 控制 的 流程 主要 包括 : 数据 收集 、 行 为 建 模 、 用 户 画像 
及 风险 定价 。 智 能 风 控 可 以 协助 金融 监管 机 构 防 范 系统 性 金融 风险 。 人 工 智 能 + 大 数据 分 析 技 


术 可 





以 助力 金融 监管 机 构建 立国 家 金融 大 数据 库 , 防止 金融 系统 性 风险 。 在 信贷 领域 , 智能 





jin 


以 应 用 到 贷 前 、 贷 中 、 贷 后 全 流程 。 贷 前 ， 助 力 信贷 机 构 进行 信息 核验 、 信 用 评估 、 实 现 


反 其 诈 ， 贷 中 ， 可 以 实现 实时 交易 监控 、 资 金 路 径 关联 分 析 、 动 态 风险 预警 等 ， 贷 后 ， 可 以 助 
力 信贷 机 构 进行 催收 、 不 良 资产 等 价 等 。 系 统 包含 一 组 模型 ， 会 根据 身份 认证 、 还 款 意 愿 和 还 


款 能 


力 三 大 维度 ,给 申请 贷款 的 用 户 进行 信用 评分 ,依据 分 值 来 决定 是 否 应 放款 。 有 效 提升 了 


贷款 审批 速度 和 贷款 获 批 率 ， 并 降低 了 贷款 的 逾期 率 。 
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2-13 ”智能 风 控 分 析 流程 


金融 行业 目前 正在 打造 闭合 的 全 产业 链 , 提供 的 服务 不 仅 针对 客户 成 长 中 的 某 一 阶段 , 而 
是 全 生命 周期 的 服务 。 如 图 2-14 所 示 ， 每 个 客户 都 要 经 历 获 取 、 提 升 、 保 持 、 流 失 和 衰退 几 
个 阶段 。 在 不 同 的 发 展 阶段 ， 风 险 特点 及 对 金融 服务 需求 的 特点 不 尽 相 同 。 基 于 AI 技术 ， 我 
们 可 以 对 不 同 阶段 的 客户 开展 个 性 化 金融 业务 。 
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2-14 全 生命 周期 客户 服务 


智能 投 顾 是 指 通过 使 用 特定 算法 模式 管理 账户 , 结合 投资 者 的 风险 偏好 、 财产 状况 与 理财 
目标 ， 为 用 户 提供 自动 化 的 资产 配置 建议 。 根 据 美国 金融 监管 局 提出 的 标准 ， 智 能 投 顾 的 主要 
流程 包括 客户 分 析 、 资 产 配置 、 投 资 组 合 选择 、 交 易 执行 、 组 合 再 选择 、 税 收 规划 和 组 合 分 析 。 
客户 分 析 主 要 通过 问 询 式 调研 和 问卷 调查 等 方式 收集 客户 的 相关 信息 , 推断 出 客户 的 风险 偏好 
以 及 投资 期 限 偏好 等 因素 , 再 根据 这 些 因素 为 客户 量 身 定制 完善 的 资产 管理 计划 , 并 根据 市 场 
变化 以 及 投资 者 偏好 等 变化 进行 自动 调整 。 智 能 投 顾 将 有 效 减 少 投 融 资 双方 信息 不 对 称 的 问 
题 ,降低 交易 成 本 。 智 能 投 顾 发 展 的 两 大 核心 要 素 : 一 是 自动 化 挖掘 客户 金融 需求 技术 ， 帮 助 
投资 顾问 更 深入 地 挖掘 客户 的 金融 需求 , 智能 投 顾 产品 设计 更 智能 化 , 与 客户 的 个 性 化 需求 更 
贴近 ,弥补 投资 顾问 在 深度 了 解 客户 方面 的 不 足 ; 二 是 投资 引擎 技术 , 在 了 解 客户 金融 需求 之 
后 ， 利 用 投资 引擎 为 客户 提供 金融 规划 和 资产 配置 方案 ， 提 供 更 合理 、 更 个 性 化 的 理财 产品 。 


2.3.3 制造 业 


人 工 智能 的 应 用 有 望 实现 制造 业 从 半自动 化 生产 到 全 自动 化 生产 的 转变 , 工业 以 太 网 的 建 
立 、 传 感 器 的 使 用 及 算法 的 革新 将 实现 工业 制造 过 程 中 所 有 生产 环节 的 数据 打通 ， 人 与 机 器 、 
机 器 与 机 器 实现 互联 互通 ,一 方面 人 机 交互 更 为 便利 ， 另 一 方面 机 器 间 将 协作 办 公 ， 既 能 够 精 
细 化 操作 , 又 能 及 时 地 预测 产品 需求 并 调整 产能 。 人 工 智能 将 推动 机 器 在 制造 业 中 进一步 取代 
人 工 ， 提 高 生产 效率 、 降 低 生产 成 本 ， 并 通过 低 成 本 的 个 性 化 生产 实现 智能 定制 化 服务 。 
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2.34 智能 家 居 


如 图 2-15 所 示 ，AI 在 智能 家 居 场 景 中， 一 方面 将 进一步 推动 家 居 生 活 产品 的 智能 化 ， 包 
括 照明 系统 、 音 条 系统、 能 源 管理 系统 、 安 防 系 统 等 ， 实 现 家 居 产 品 从 感知 到 认 知 再 到 决策 的 
发 展 ; 另 一 方面 在 于 智能 家 居 系 统 的 建立 , 搭载 人 工 智能 的 多 款 产品 都 有 望 成 为 智能 家 居 的 核 
心 , 包括 机 器 人 、 智 能 音箱 、 智 能 电视 等 产品 ,智能 家 居 系 统 将 逐步 实现 家 居 自 我 学 习 与 控制 ， 
从 而 提供 针对 不 同 用 户 的 个 性 化 服务 。 
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图 2-15 智能 家 居 生 态 布局 


目前 ， 智 能 家 居 仍 处 于 从 手机 控制 向 多 控制 结合 的 过 渡 阶 段 ， 手 机 App 仍 是 智能 家 居 的 
主要 控制 方式 , 但 基于 人 工 智能 技术 开发 出 来 的 语音 助手 、 搭 载 语音 交互 的 硬件 等 软 硬 件 产品 
已 经 开始 进入 市 场 。 通 过 语音 控制 ， 多 产品 联动 的 使 用 场景 逐步 变 为 现实 。 而 在 未 来 ， 人 工 智 
能 将 推动 智能 家 居 从 多 控制 结合 向 感应 式 控制 再 到 机 器 自我 学 习 自主 决策 阶段 发 展 。 

传统 的 鼠标 操作 、 触 屏 操作 逐渐 向 语音 交互 这 种 更 为 自然 的 交互 方式 演进 , 语音 交互 的 未 
来 价值 在 于 用 户 数据 挖掘 ， 以 及 背后 内 容 、 服 务 的 打通 ， 以 语音 作为 入 口 的 物 联网 时 代 将 会 产 
生 新 的 商业 模式 。 智 能 音箱 、 服 务 机 器 人 、 智 能 电视 等 智能 化 产品 成 为 现 阶段 搭载 语音 识别 技 
术 和 自然 语言 处 理 技术 的 载体 ， 作 为 潜在 的 智能 家 居 入 口 ， 智 能 音箱 、 服 务 机 器 人 和 智能 电视 
等 产品 在 提供 原 有 的 服务 的 同时 , 接 入 更 多 的 移动 互联 网 服务 , 并 实现 对 其 他 智能 家 居 产 品 的 
控制 。 这 些 产品 为 付费 内 容 、 第 三 方 服务 、 电 商 等 资源 开拓 上 了 新 的 流量 入 口 ， 用 户 多 方 数据 被 
记录 分 析 ， 厂 商 将 服务 嫁接 到 生活 中 不 同 的 场景 中 ， 数 据 成 为 基础 ， 服 务 更 为 人 性 化 。 





2.35 医疗 

目前 ,医疗 行业 存在 医疗 资源 不 足 、 医 疗 资源 区 域 分 布 不 均 、 医 生 培养 周期 长 、 医 疗 成 本 
高 、 医 疗 误诊 率 高 、 疾 病变 化 快 等 诸多 痛 点 。 同 时, 随 着 人 口 老龄 化 逐渐 加 剧 、 慢性 疾病 增长 ， 
对 医疗 服务 的 需求 也 逐渐 增加 。 待 解决 的 医疗 痛 点 及 逐渐 增加 的 医疗 服务 需求 成 为 人 工 智 能 技 
术 应 用 于 医疗 行业 的 现实 需求 。 医 疗 行业 基于 人 工 智能 技术 , 将 形成 辅助 诊断 系统 ,通过 图 像 
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识别 、 知 识 图 谱 等 技术 , 将 辅助 医生 决策 , 而 医学 大 数据 的 发 展 将 患者 信息 数字 化 ， 提 高 发 现 
潜在 疾病 的 概率 , 并 提供 针对 性 解决 方案 。 人工 智能 技术 将 为 医疗 领域 中 的 医生 与 患者 带 来 新 
的 疾病 治疗 方式 。 

另 一 方面 ,政策 在 积极 推动 “人 工 智 能 医疗 ”的 应 用 进程 。2016 年 6 月， 国务 院 发 布 《 关 
于 促进 和 规范 健康 医疗 大 数据 应 用 发 展 的 指导 意见 》, 提出 健康 医疗 大 数据 是 国家 重要 的 基础 
性 战略 资源 , 需要 规范 和 推动 健康 医疗 大 数据 融合 ,支持 研发 健康 医疗 相关 的 人 工 智能 、 生 物 
三 维 打印 技术 、 医用 机 器 人 及 可 穿戴 设备 等 。 指导 意见 的 出 台 有 利于 进一步 促进 医疗 大 数据 的 
规范 人 化、 标准化， 进一步 释放 医疗 大 数据 的 价值 ， 助 力 “ 人 工 智能 + 医疗 ”产业 化 提速 。2017 
年 7 月 8 日 ,国务 院 发 布 《新 一 代 人 工 智 能 发 展 规划 》， 提 出 发 展 便捷 高 效 的 智能 服务 ， 围 绕 
教育 、 医 疗 、 养 老 等 需求 ， 加 快 人 工 智 能 创新 应 用 ; 提出 推广 人 工 智能 治疗 这 种 新 模式 、 新 手 
段 ， 建 立 智 能 医疗 体系 ， 开 发 人 机 协同 的 手术 机 器 人 、 智 能 诊疗 助手 等 ， 实 现 智能 影像 识别 、 
病理 分 型 和 智能 多 学 科 会 诊 ; 智能 健康 和 养老 方面 ， 提 出 加 强 群 体 智能 健康 管理 ， 突 破 健康 大 
数据 分 析 、 物 联网 等 技术 ,构建 安全 便捷 的 智能 化 养老 基础 设施 体系 , 加 强 老年 人 产品 智能 化 
和 智能 产品 适 老化 等 。 

在 医疗 领域 ， 人 工 智能 技术 应 用 前 景 广泛 。 从 全 球 企业 实践 来 看 ，“ 人 工 智能 + 医疗 ” 具 
体 应 用 场景 主要 有 医学 影像 、 辅 助 诊 疗 、 虚 拟 助理 、 新 药 研 发 、 健 康 管 理 、 可 穿戴 设备、 急救 
室 和 医院 管理 、 洞 察 与 风险 管理 、 营 养 管理 及 病理 学 、 生 活 方式 管理 与 监督 等 。 

“人 工 智能 + 医学 影像 ”是 将 人 工 智 能 技术 应 用 在 医学 影像 的 诊断 上 ， 实 际 上 是 模仿 人 类 
医生 的 阅 片 模式 。 人 工 智能 技术 应 用 于 医学 影像 主要 包括 数据 预 处 理 、 图 像 分 割 、 特 征 提 取 和 
匹配 判断 4 个 流程 人 工 智能 强大 的 图 像 识别 和 深度 学 习 能 力 有 助 于 解决 传统 医学 影像 中 存在 
的 准确 度 低 、 工 作 量 大 的 问题 ， 弥 补 影像 科 医 生 不 足 ， 提 升 读 片 准确 度 ， 提 高 医生 工作 效率 ， 
缓解 放射 科 医 生 压 力 。 同 时 , 技术 手段 助力 疾病 早 得 ,及 早 为 患者 发 现 病灶 , 提高 患者 存活 率 。 
虽然 影像 识别 在 单 病 种 的 市 场 空间 不 大 , 但 在 政策 推动 背景 下 , 影像 科 、 检 验 科 等 科室 市 场 化 
运营 ， 成 立 病理 中 心 ， 高 端 诊 断 服务 将 成 为 影像 识别 技术 的 巨大 机 会 。 

“人 工 智能 + 辅助 诊疗 ”就 是 将 人 工 智能 技术 应 用 于 辅助 诊疗 中 ， 让 机 器 学 习 专 家 医生 的 
医疗 知识 ,通过 模拟 医生 的 思维 和 诊断 推理 来 解释 病症 原因 ,最 后 给 出 可 靠 的 诊断 和 治疗 方案 。 
在 诊断 中 ， 人 工 智 能 需要 获取 患者 病症 , 解释 病症 ,通过 推理 判断 疾病 原因 及 发 展 走 向 ,形成 
有 效 治疗 方案 。 如 图 2-16 所 示 ， 辅 助 诊疗 的 一 般 模式 为 : 获取 病症 信息 一 做 出 假设 一 制定 治 
疗 方案 。IBM Watson 融合 了 认 知 技术 、 推 理 技术 、 自 然 语 言 处 理 技术 、 机 器 学 习 及 信息 检索 
等 技术 ， 是 目前 “人 工 智能 + 辅助 诊疗 ”应 用 中 最 为 成 熟 的 案例 。IBM Watson 已 经 通过 了 美 
国 职业 医师 资格 考试 , 并 在 美国 多 家 医院 提供 辅助 诊疗 服务 。IBM Watson 可 以 在 17 秒 内 阅读 
3 469 本 医学 专著 、248 000 篇 论文 、69 种 治疗 方案 、61 540 次 试验 数据 、106 000 份 临床 报告 。 
“人 工 智能 + 辅助 诊疗 ”服务 基于 电子 处 方 、 医 学 文献 、 医 学 影像 等 数据 ， 寻 找 疾 病 与 解决 方 
案 之 间 的 对 应 关系 , 构建 医学 知识 图 谱 , 在 诊断 决策 层面 有 效 优化 医生 的 诊断 效率 。 未 来 ,“ 人 
工 智能 + 辅助 诊疗 ”的 市 场 空间 巨大 ， 尤 其 在 基层 常见 病 诊疗 方面 能 够 发 挥 较 大 效能 ， 有 效 提 
高 基层 医疗 效率 ， 降 低 医 疗 成 本 。 
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2-16 ”人 工 智能 + 辅助 诊疗 


人 工 智能 广泛 应 用 于 医疗 领域 , 有 助 于 解决 现 阶段 医疗 资源 不 足 的 核心 痛 点 。 移动 互联 网 
时 代 , 我 国医 疗 行业 现 阶段 的 核心 痛 点 从 信息 不 透明 转移 到 了 优质 医疗 资源 不 足 , 同时 伴随 着 
医疗 成 本 高 、 人 才 培 养 周 期 较 长 等 问题 ,人 工 智能 高 效 计算 能 力 有 效 提高 医疗 行业 的 产能 。 人 
工 智能 广泛 应 用 于 医疗 领域 有 助 于 带动 基层 医疗 服务 。“ 人 工 智能 + 医疗 ”有 望 成 为 一 种 可 复 
制 的 医疗 资源 ， 增 加 基层 医生 的 诊断 精准 度 。 


2.3.6 BAS 


自动 驾驶 也 可 以 称 为 无 人 驾驶 ， 指 依靠 人 工 智能 、 视觉 计 算 、 雷 达 、 监 控 装 置 和 全 球 定位 
系统 协同 合作 ， 让 电脑 可 以 在 没有 任何 人 类 主动 的 操作 下 ,自动 安全 地 操作 机 动车 辆 。 先 进 轰 
驶 辅助 系统 (Advanced Driver Assistant System, ADAS) 利用 安装 于 车 上 的 各 式 各 样 的 传感器 ， 
在 第 一 时 间 收 集 车 内 外 的 环境 数据 ， 从 而 能 够 让 驾驶 者 以 最 快 的 时 间 察 觉 可 能 发 生 的 危险 。 
ADAS 采用 的 传感器 主要 有 摄像 头 、 雷 达 、 激 光 和 超声 波 。ADAS 与 自动 驾驶 的 区 别 在 于 : 
ADAS 可 以 视 为 自动 驾驶 实现 的 一 个 路 径 ，ADAS 可 以 最 终 演化 为 自动 驾驶 。 

自动 驾驶 研究 领域 目前 基本 分 为 两 大 阵营 : 以 传统 汽车 厂商 和 Mobileye 合作 的 “ 递 进 式 ” 
应 用 型 阵营 ， 以 谷歌 、 百 度 以 及 初创 科技 公司 为 主 的 “越级 式 ” 研 究 型 阵营 。 表 2-5 显示 了 自 
动 驾驶 两 个 阵营 之 间 的 差别 。 





表 2-5 自动 驾驶 两 个 阵营 的 区 别 











递 进 式 阵营 越级 式 阵营 

“在 任何 区 域 里 发 挥 局 部 功能 ”的 中 期 目标 “在 特定 区 域 里 发 挥 全 效 功能 ”的 
中 期 目标 

“万 无 一 失 ” 的 复杂 传感器 组 合 (redundancy in | 把 高 精度 地 图 作为 路 径 导航 规划 决 

system) 策 的 主要 依据 





定位 地 图 | 高 精度 地 图 的 逐步 整合 ， 短 期 内 能 够 为 驾驶 系统 提供 | 高 精度 地 图 规模 化 效应 不 明显 
额外 的 安全 宛 余 ， 长 期 配合 车 联网 增强 可 选 路 径 预测 
和 规划 的 功能 
商业 化 可 商业 化 路 径 更 为 清晰 商业 化 落地 路 径 不 明 , 较 难 出 现 过 渡 
性 产品 
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自动 驾驶 系统 分 为 4 个 层级 : 感知 层 、 识 别 层 、 决 策 层 、 执 行 层 。 自 动 驾驶 各 层级 及 其 相 
互 关系 如 图 2-17 所 示 。 


eo GPS | ES (Emas) (Es I vee oe en E 


© > 道路 标识 行人 车 辆 


r3 mA | 算法 /集成 ya 
pomi aR 《行驶 路 线 决 策 规 划 ) 《出 行 /物流 ) 
ae 1 A 
EH ETA) KEMA E RI 


o tah DII mik | | 中 控 系 统 。。 导航 QARE) GIO 


图 2-17 自动 驾驶 层次 结构 图 

1. 感知 ( 传 感 ) 

(1) 车 载 摄像 头 

以 摄像 头 为 代表 的 机 器 视觉 传感器 是 自动 驾驶 的 核心 感知 技术 。 视 觉 系 统 不 仅 能 够 识别 目 
标 距 汽 车 的 距离 , 还 能 够 识别 目标 的 纹理 和 色彩 , 这 是 车 载 雷达 所 不 能 做 到 的 。 相 比 于 其 他 传 
感 器 , 摄像 头 的 优势 在 于 : 技术 成 熟 , 成 本 较 低 ; 可 以 通过 较 小 的 数据 量 获得 最 为 全 面 的 信息 。 
但 是 ， 摄 像 头 识别 也 存在 一 定局 限 性 : 受 光线 、 天 气 影响 大 ;物体 识别 基于 机 器 学 习 数 据 库 ， 
需要 的 训练 样本 大 ， 训 练 周期 长 ， 难 以 识别 非 标准 障碍 物 ; 由 于 广角 摄像 头 的 边缘 畸变 ， 得 到 
的 距离 准 度 较 低 。 

目前 摄像 头 的 应 用 主要 有 以 下 几 种: 


o 单 目 摄像 头 : 一 般 安装 在 前 挡 风 玻璃 上 部 ， 用 于 探测 车 辆 前 方 的 环境 。 

€ EIRA: 一 般 安装 在 车 尾 ， 用 于 探测 车 辆 后 方 的 环境 ， 应 用 于 倒车 可 视 系统 。 

€ 立体 摄像 头 , 或 称 双 目 摄像 头 : 利用 两 个 经 过 精确 标定 的 摄像 头 同时 探测 车 辆 前 方 的 
环境 ， 实 现 更 高 的 识别 精度 和 更 远 的 探测 范围 。 

@ 环视 摄像 头 : 一 般 至 少 包括 4 个 摄像 头 ， 分 别 安装 在 车 辆 前 、 后 、 左 、 右 侧 ， 实 现 
360° 环境 感知 ， 应 用 于 自动 泊 车 和 全 景 泊 车 系统 。 

(2) 超声 波 雷达 

超声 波 雷达 主要 是 利用 超声 波 原理 , 由 探头 发 送 超声 波 撞击 障碍 物 后 反射 此 声波 , 计算 出 

车 体 与 障碍 物 间 的 实际 距离 。 超 声波 雷达 现在 主要 应 用 于 倒车 雷达 。 
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(3) 激光 雷达 

激光 雷达 的 原理 与 超声 波 雷 达 相 似 , 根据 激光 遇 到 障碍 后 的 折返 时 间 , 计算 与 目标 的 相对 
距离 。 激 光 雷 达 的 激光 光束 与 超声 波 雷 达 的 声波 和 毫米 波 雷 达 的 电磁 波 相 比 更 加 聚 扰 ， 声波 和 
电磁 波 在 传播 路 径 上 遇 到 尺寸 比 波长 小 的 物体 时 , 将 会 发 生 衍射 现象 ， 因此, 无 法 探测 大 量 存 
在 的 小 型 目标 , 而 激光 雷达 可 以 准确 测量 视 场 中 物体 轮廓 边沿 与 设备 间 的 相对 距离 , 精度 可 达 
到 厘米 级 别 。 而 用 于 雷达 系统 的 激光 波长 一 般 只 有 微米 的 量 级 , 因而 它 能 够 探测 非常 微小 的 目 
标 ， 测 量 精度 也 远 远 高 于 毫米 波 雷达 及 其 他 车 载 标 准 雷 达 。 

激光 雷达 的 劣势 在 于 价格 昂贵 激光 雷达 的 测量 精度 与 其 雷达 线束 的 多 少 有 关 , 线束 越 多 ， 
测量 精度 越 高 ，ADAS 自动 驾驶 系统 的 安全 性 也 越 高 。 同 时 线束 越 多 ， 其 价格 也 越 贵 。 

激光 雷达 按 有 无 机 械 旋转 部 件 分 为 机 械 激 光 雷 达 和 固态 激光 雷达 。 固 态 激光 雷达 无 须 旋转 
部 件 ， 尺 寸 较 小 ， 性 价 比较 高 ,测量 精度 相对 低 一 些 。 低 成 本 化 是 激光 雷达 的 一 大 趋势 ， 目 前 
行业 有 三 种 方式 来 降低 整个 激光 雷达 的 成 本 与 价格 : (1) 降 维 ， 即 使 用 低 线束 、 低 成 本 激光 
雷达 配合 其 他 传感器 ; (2) 采 全 固态 激光 雷达 代替 机 械 激光 雷达 ; G) 通过 规模 效益 降低 激 
光 雷 达 的 单个 成 本 。 

(4) 毫米 波 雷达 

毫米 波 雷 达 指 工作 在 毫米 波 波 段 的 雷达 。 采 用 雷达 向 周围 发 射 无 线 电 ， 波 长 在 
Imm~10mm, 频率 在 30GHz~300GHz, 比较 常见 的 汽车 毫米 波 雷达 工作 频率 在 24GHz、77GHz、 
79GHz 三 个 频率 附近 。 毫 米 波 雷达 通过 测定 和 分 析 反 射 波 以 计算 障碍 物 的 距离 、 方 向 、 角 度 、 
相对 速度 和 大 小 。 毫 米 波 雷达 可 以 做 到 让 车 辆 自 适 应 巡航 及 跟随 前 车 。 当 汽车 与 周围 的 物体 可 
能 有 碰撞 发 生 时 , 通过 警告 提醒 装置 告知 驾驶 员 或 车 辆 采取 自动 紧急 制 动 避免 碰撞 。 当 碰撞 不 
可 避免 时 ， 通 过 对 刹车 、 头 靠 、 安 全 带 等 进行 控制 ， 减 轻 因 碰撞 而 带 来 的 危害 。 

2. 识别 与 决策 

COD 识别 芯片 

芯片 在 自动 驾驶 系统 中 的 行业 集中 度 高 ， 主 要 有 Mobileye, ADI 等 公司 ， 比 如 
Mobileye/ST—EyeQ5. {EN ADAS FIKH, Mobileye 占领 了 全 球 汽车 安全 驾驶 系统 70% 以 
上 的 市 场 份额 。 在 这 个 领域 深耕 细作 十 几 年 ， 有 相当 深厚 的 历史 背景 ， 这 些 经 验 并 不 是 其 他 公 
司 短 时 间 可 以 超越 的 。 


(2) 决策 算法 

决策 部 分 的 算法 和 芯片 主要 由 一 些 大 公司 以 及 由 大 公司 出 来 的 科学 家 成 立 的 创业 公司 研 
发 。 由 于 决策 算法 需要 花费 巨大 的 财力 ， 且 短期 内 商业 化 的 可 能 性 比较 小 , 因此 相关 联 的 小 型 
创业 公司 寥寥 无 几 。 

表 2-6 列 出 了 国内 外 自动 驾驶 的 “大 脑 ” 公 司 。 
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表 2-6 国内 外 自动 驾驶 的 “大 脑 ” 公 司 


百度 无 人 驾驶 与 博世 合作 全 力 开 发 “阿波 罗 ” 无 人 驾驶 系统 | 开放 式 无 人 驾驶 算法 
项 目 由 谷歌 街景 的 共同 发 明 人 Sebastian Thrun | 开放 式 无 人 驾驶 算法 
谷歌 无 人 驾驶 领导 。 谷 歌 的 工程 人 员 使 用 7 辆 试验 车 ， 目 前 
已 经 行驶 48 万 公里 








Comma.ai 创始 人 是 著名 黑客 George Hotz (全 球 第 一 个 破 | 基于 卷 积 神经 网 络 的 
(美国 ) 解 iPhone 的 人 ) 无 人 驾驶 算法 
Driver.ai 主要 还 是 利用 深度 学 
(美国 ) 习 来 开发 无 人 驾驶 技 
术 











G) 决策 芯片 
表 2-7 列 出 了 有 名 的 自动 驾驶 决策 芯片 提供 商 。 


R27 自动 驾驶 决策 芯片 提供 商 
使 用 循环 神经 网 络 对 驾驶 行为 进行 学 习 ， 推 出 TensorFlow 系统 
英 伟 达 推出 了 DrivePX 硬件 ， 采 用 12 Wi CPU 和 一 个 Pascal 平台 的 GPU 图 形 核心 ， 单 
精度 计算 能 力 达到 8TFLOPS， 等 同 于 150 部 MacBookPro， 达 到 每 秒 24 万 次 ， 可 以 处 
理 包括 摄像 头 、 雷 达 、 激 光 雷 达 在 内 的 12 路 信号 


(4) 高 精度 地 图 
汽车 需 配备 足够 准确 显示 周围 环境 的 高 精度 地 图 ， 误 差 不 能 大 于 10cm。 传 感 器 和 地 图 的 


















































结合 使 自动 驾驶 汽车 能 够 及 时 修正 数据 上 的 误差 , 辨识 车 辆 的 准确 位 置 并 导航 。 并 且 ， 高 精度 
地 图 能 够 核对 传感器 所 接收 的 数据 并 帮助 汽车 精确 监测 周边 环境 。 目 前 高 精度 地 图 已 经 被 苹 
KR. GK, EAM BAT 等 大 公司 垄断 ， 表 2-8 是 这 些 公司 并 购 地 图 厂商 的 事件 。 
R28 国内 外 巨头 收购 高 精度 地 图 公司 一 览 表 
公司 时 间 ( 年 ) | 事件 
谷歌 2013 13 亿美 元 收购 众 包 地 图 公司 Waze 
2013 收购 在 线 交通 导航 应 用 开发 商 HopStop 
2013 收购 综合 性 地 图 公司 BoradMap 
苹果 2015 收购 开发 高 精度 全 球 定位 系统 的 公司 Coherent Navigation 
2015 3000 万 美元 收购 地 图 分 析 公司 Mapsense 
阿里 巴巴 2014 全 资 收购 高 德 地 图 
腾讯 2014 以 11.73 亿 元 人 民 币 收购 四 维 图 新 11.28% 股 权 





德国 三 大 汽车 厂商 戴 姆 | 2015 以 32 亿美 元 收购 诺基亚 地 图 业务 
勒 、 宝 马 、 奥 迪 组 成 的 财团 
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(5) 车 联网 

车 联网 V2X 是 自动 驾驶 和 未 来 智能 交通 运输 系统 的 关键 技术 。V2X 是 指 联网 无 线 通 信 技 
术 ， 实 现 车 对 外 界 的 信息 交换 ，V2X 包括 V2V (车 -车 ) 、V2I (车 -基础 设施 ) 、V2R (车 - 
道路 信息 ) 、V2P〈 车 -行人 ) 等 方式 的 车 联网 通信 技术 。 它 可 以 弥补 单车 智能 的 软肋 ， 当 车 
辆 环境 感知 系统 无 法 做 到 全 天 候 、 全 路 况 的 准确 感知 时 ，V2X 可 以 利用 通信 技术 、 卫 星 导 航 
对 感知 系统 进行 协调 互补 。 

伴随 着 ADAS 技术 的 不 断 更 新 ， 推 断 全 球 L1-LS 智能 驾驶 市 场 的 渗透 率 会 在 接 下 来 的 5 
年 内 处 于 高 速 渗透 期 ， 然 后 伴随 半 无 人 驾驶 的 普及 进入 稳 速 增长 期 。 到 2025 年 无 人 驾驶 放量 
阶段 后 ， 依 赖 全 产业 链 的 配合 而 进入 市 场 成 熟 期 。 预 测 到 2030 年 ， 全 球 L4/L5 级 别 的 自动 驾 
驶 车 辆 渗透 率 将 达到 15%， 除 了 单车 应 用 成 本 的 显著 提升 之 外 ， 从 L1~L4 级 别 的 智能 驾驶 功 
能 全 面 渗透 会 为 汽车 产业 带 来 全 面 的 市 场 机 会 。 

按照 IHS Automotive 保守 估计 ， 全 球 L4/L5 自动 驾驶 汽车 产量 在 2025 年 将 达到 接近 60 
万 辆 ， 并 在 2025-2035 年 间 获 得 高 速 发 展 。 在 这 个 “无 人 驾驶 黄金 十 年 ”内 复合 增长 率 将 达 
到 43%， 并 在 2035 年 LA/LS 自动 驾驶 汽车 产量 将 达到 2100 万 辆 ， 另 有 接近 7600 万 辆 汽车 具 
备 部 分 自动 驾驶 功能 ， 同 时 将 带动 产业 链 衍 生 市 场 的 大 规模 催化 扩张 。 


3. 自动 驾驶 瀣 势 分 析 

CD 趋势 1， 低 成 本 激光 雷达 方案 

激光 雷达 作为 自动 驾驶 最 昂贵 的 配件 ， 精 度 高 ,性 能 好 ， 是 最 被 看 好 的 车 载 传感器 。 激光 
雷达 未 来 趋 于 固态 化 、 小 型 化 、 低 成 本 ， 目 前 特 斯 拉 尚 未 采用 激光 雷达 方案 ,主要 在 于 成 本 太 
高 ,因此 作为 将 来 自动 驾驶 的 核心 配件 来 说 ,如 果 能 够 提供 低 成 本 的 激光 雷达 方案 , 将 会 快速 
推动 自动 驾驶 市 场 。 

(2) 趋势 2， 多 传感器 融合 方案 


QD 融合 感知 是 大 势 所 趋 

毫米 波 雷 达能 解决 所 有 情况 下 30% 左 右 的 问题 ， 激 光 雷 达能 解决 60%~70% 的 问题 ， 单 
目 配合 雷达 能 够 实现 测 距 和 预测 碰撞 时 间 , 双 目 配合 单 目的 识别 技术 也 能 够 丰富 双 目 在 测 距 之 
外 的 感知 能 力 ， 因 此 未 来 融合 会 是 趋势 。 


@ 各 类 车 厂 的 选择 方案 有 所 不 同 

技术 实力 弱 的 车 厂 更 多 依靠 Tierl 来 集成 ， 实 力 强 的 车 厂 会 自己 来 做 整合 。 国 内 车 企 对 汽 
车 部 件 的 控制 能 力 偏 弱 ， 例 如 长 安 、 奇 瑞 等 都 无 法 接 入 刹车 软件 接口 ， 都 是 通过 Tier] 来 解决 
(如 博世 、 电 装 )。 协 助 Tier] 进行 多 传感器 算法 融合 的 公司 有 一 定 机 会 ， 尤 其 是 对 摄像 头 + 
激光 雷达 算法 融合 擅长 的 计算 机 视觉 团队 。 

(3) 趋势 3: 深度 学 习 算法 应 用 于 ADAS 

传统 算法 仍然 适用 于 ADAS 阶段 , 深度 学 习 满足 最 后 关键 5% 的 识别 精度 。 深度 学 习 出 现 
以 后 , 视觉 识别 任务 的 精度 都 进行 了 大 幅度 的 提升 。 因 此， 大 量 公 司 会 将 算法 模型 开放 ， 其 背 
后 的 动机 在 于 收集 更 多 数据 训练 自身 的 算法 模型 , 同时 改进 算法 , 最 终 将 改进 的 算法 与 车 厂 合 











54 





9823 Al 产业 


作 ， 将 算法 的 商业 价值 变现 。 对 于 开放 算法 ， 将 深度 学 习 直接 用 于 ADAS 领域 的 公司 ， 将 迎 
来 一 次 机 会 ， 如 Comma.ai, Driv.ai 这 样 的 公司 。 


(4) 趋势 4: 自动 驾驶 深度 学 习 专 用 集成 电路 处 理 器 

专用 集成 电路 (ASIO 是 根据 特定 客户 要 求 和 特定 电子 系统 的 需要 而 设计 、 制 造 的 集成 
电路 。 在 批量 生产 时 ， 与 通用 集成 相 比 具有 体积 更 小 、 功 耗 更 低 、 可 靠 性 更 高 、 保 密 性 更 强 、 
成 本 更 低 等 优点 .将 深度 学 习 算 法 应 用 在 自动 驾驶 并 且 利 用 特定 芯片 实现 深度 学 习 功 能 的 专用 
处 理 器 ， ALE FPGA, ASIC 牺牲 灵活 性 换取 尺寸 和 功 耗 下 降 ，ASIC 去 除了 芯片 中 与 算法 实 
现 无 关 的 组 件 ， 在 牺牲 灵活 性 的 同时 ， 极 大 地 提升 了 自动 驾驶 深度 学 习 的 效率 。 


(5) 趋势 53: 物流 行业 的 无 人 驾驶 应 用 

物流 领域 的 无 人 驾驶 应 用 ， 使 用 物流 无 人 驾驶 能 为 物流 行业 解决 以 下 三 个 问题 。 
Q 路 线 较为 固定 ， 降 低 了 环境 的 复杂 性 ， 有 利于 提升 无 人 驾驶 的 安全 性 。 

@ 该 细 分 领域 司机 疲劳 驾驶 情况 比较 明显 ， 无 人 驾驶 可 以 提高 安全 性 。 

© 有 效 降低 运营 的 人 力 成 本 ， 提 升 行业 效率 。 


2.4 AI 产业 发 展 趋势 分 析 


如 图 2-18 所 示 ， 人 工 智 能 产业 链 可 以 分 为 基础 设施 层 、 技 术 层 和 应 用 产品 层 ， 各 层 的 发 
展 趋势 如 下 。 


e ”基础 设施 层 ， 主 要 有 基础 数据 提供 商 、 半 导体 芯片 供应 商 、 传 感 器 供应 商 和 云 计算 服 
务 商 。 在 过 去 的 5~10 年 ， 人 工 智能 技术 得 以 商业 化 ， 主 要 得 益 于 传感器 等 硬件 价格 
快速 下 降 、 云 服务 的 普及 以 及 GPIJ 等 芯片 使 大 规模 并 行 计算 能 力 得 以 提升 。 人 工 知 
能 产业 在 基础 设施 层面 的 搭建 已 经 基本 形成 。 

e HRE, 主要 有 语音 识别 、 自 然 语言 处 理 、 计 算 机 视觉 、 深 度 学 习 技 术 提 供 商 。 与 其 
他 技术 相 比 ， 语 音 识 别 在 技术 和 应 用 方面 都 已 经 较为 成 就， 谷歌、 亚马逊 、 革 果 、 百 
度 、 阿 里 等 巨头 的 布局 很 深 , 科大 讯 飞 等 企业 也 显示 了 良好 的 增长 势头 。 另外 ,计算 
机 视觉 尤其 是 人 脸 识 别 、 自 然 语言 处 理 等 方向 也 将 是 技术 和 应 用 发 展 较 快 的 领域 。 

e ”处 于 应 用 产品 层 的 企业 , 主要 是 把 人 工 智能 相关 技术 集成 到 自己 的 产品 和 服务 中 ， 然 
后 切入 特定 场景 (金融 、 家 居 、 医 疗 、 安 防 、 车 载 等 ) 。 未 来 数据 完整 (信息 化 程度 
原本 就 比较 高 的 行业 或 者 数据 洼地 行业 ) 、 反 馈 机 制 清晰 、 追 求 效 率 动力 比较 强 的 场 
景 或 将 率先 实现 AI 技术 的 大 规模 商业 化 。 目 前 来 看 ， 自 动 轰 驶 、 医 疗 、 安 防 、 金 融 、 
营销 等 领域 是 业内 人 士 普遍 比较 看 好 的 方向 。 
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人 工 智能 与 大 数据 技术 导论 


o > 个 人 助理 无 人 驾驶 智能 金融 智能 家 居 智能 医疗 智能 安防 机 器 人 i 
o b 计算 机 视觉 自然 语言 处 理 语言 识别 深度 学 习 i 
E b: 大 数据 芯片 云 计 算 传感器 


图 2-18 AI 的 3 层 结构 
AI 产业 发 展 还 呈现 了 以 下 趋势 。 


(1) 平台 崛起 ， 技 术 、 硬 件 、 内 容 多 方面 资源 进一步 整合 

人 工 智能 覆盖 的 行业 及 场景 巨大 , 单一 企业 无 法 涉及 人 工 智能 产业 的 方方面面 , 厂商 基于 
自身 的 优势 切入 产业 链条 ， 并 与 其 他 厂商 进行 合作 ， 技 术 、 硬 件 、 内 容 多 方面 资源 进行 整合 ， 
共同 推动 人 工 智能 技术 落地 。 在 技术 、 内 容 及 硬件 的 发 展 下 ,平台 进一步 崛起 ,生态 化 布局 日 
益 重 要 。 


Q) 人 工 智能 技术 继续 向 垂直 行业 下 沉 

通用 型 人 工 智能 技术 已 不 能 满足 各 行业 的 需求 , 不 同行 业 在 应 用 侧重 点 上 有 所 不 同 , 数据 
资源 也 同样 不 同 ， 需 要 市 场 从 业者 针对 行业 特点 ， 设 计 不 同 的 行业 解决 方案 。 人 工 智能 技术 将 
继续 从 场景 出 发 实现 技术 落地 ， 在 垂直 行业 中 ， 医 疗 、 金 融 、 安 防 、 环 境 、 教 育 、 家 居 等 行业 
已 初 具 规模 ， 未 来 发 展 前 景 巨大 。 


(3) 产 学 研 相 结合 ， 人 才 仍 是 抢夺 的 重点 

AI、 物 联网 成 为 主流 的 发 展 趋势 ， 人 才 在 其 中 发 挥 的 价值 越 来 越 大 ， 而 产业 发 展 速度 与 
人 才 培 养 速度 之 间 的 矛盾 在 产 学 研发 展 路 径 下 将 逐渐 缩小 , 专业 型 人 才 开 始 增多 , 具有 核心 知 
识 的 专家 仍然 成 为 厂商 抢夺 的 重点 。 在 人 工 智能 领域 中 ,国内 人 才 集 中 在 技术 层 及 应 用 层 ， 基 
础 层 人 才 薄 弱 ， 国 内 高 校 在 人 工 智能 人 才 培 养 方面 也 持续 缺失 ， 专 业 布 局 较 晚 ， 专 家 有 限 ， 国 
内 外 在 教育 系统 之 间 的 差距 较 大 , 这 也 导致 国内 在 人 工 智能 领域 基础 层 研究 的 薄弱 。 在 意识 到 
人 才 方 面 的 缺失 之 后 ， 国 家 及 企业 采取 各 类 措施 进行 追赶 ， 比 如 采取 “ 千 人 计划 ”“ 新 一 代 人 
工 智能 发 展 规划 ”等 政策 吸引 优秀 专业 人 才 回 国 , 企业 围绕 其 核心 业务 抢夺 人 工 智能 人 才 。 未 
来 需要 继续 建立 核心 技术 人 才 培 养 体系 ,加 强人 工 智能 一 级 学 科 建 设 ,实现 产 学 研 的 有 效 融合 ， 
为 人 工 智能 产业 持续 不 断 输 送 优 质 人 才 。 


(4) 厂商 进入 卡 位 战 ， 不 断 发 掘 新 的 商业 模式 

人 工 智能 将 通过 AI+ 的 形式 影响 各 行 各 业 ， 技 术 厂 商 崛 起 ， 但 应 用 才 是 技术 落地 的 关键 。 
技术 被 集成 到 各 类 产品 中 , 技术 厂商 本 身 议价 能 力 不 强 ， 所 获得 的 利益 有 限 ， 因 此 技术 厂商 积 
极 搭建 平台 ， 或 发 展 硬件 、 布 局 生态 ， 以 集成 商 的 角色 获取 更 多 的 行业 红利 。 
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923 Al 产业 


软件 以 及 互联 网 对 传统 商业 的 冲击 已 呈 颠 覆 之 势 ， 而 AI 所 覆盖 的 领域 更 为 庞大 ， 冲 击 也 
更 甚 。 随 着 人 工 智能 的 发 展 ， 由 软件 和 互联 网 打造 的 流量 价值 被 打破 ， 数 据 为 王 成 为 新 趋势 ， 
场景 化 消费 成 为 用 户 诉求 , 云端 服务 、 后 端 收费 等 依托 智能 硬件 而 发 展 起 来 的 新 兴 服 务 模式 逐 
渐 兴 起 。 人 工 智能 产业 中 的 入 局 者 需要 在 推动 技术 落地 的 同时 不 断 发 掘 新 的 商业 机 会 。 


(5) 中 国 仍 需 加 大 在 算 力 、 算 法 、 大 数据 领域 的 发 展 ， 弥 补 技术 弱势 

人 工 智能 底层 基础 层 技术 仍旧 掌握 在 欧美 国家 手中 , 尤其 是 芯片 、 先 进 半导体 等 核心 零 部 
件 ， 以 及 算法 、 开 源 框架 等 核心 技术 ， 这 些 技术 将 直接 影响 人 工 智能 技术 的 发 展 进程 。 虽 然 国 
家 通过 “中 国 制造 2025” 等 战略 推动 先进 技术 的 研发 ， 但 是 国内 研发 基础 相对 薄弱 ， 在 基础 
算法 研究 领域 仍 处 于 和 劣势。 教育 不 完善 、 人 才 短 缺 、 研 究 领 域 集中 、 数 据 开放 不 足 等 问题 成 为 
限制 中 国人 工 智能 发 展 的 重要 因素 。 因此， 中国 仍 需 加 大 在 算法 算 力 、 大 数据 领域 的 布局 ， 掌 
握 核心 技术 能 力 。 


(6) 伦理 之 争 不 止 ，AI 终 将 取代 部 分 人 工 

由 人 工 智能 引发 的 伦理 问题 一 直 无 法 达成 共识 。 目前, 业内 普遍 认为 人 工 智能 将 经 历 三 个 
时 间 节 点 : 第 一 个 时 间 节 点 是 这 一 波 人 工 浪潮 ， 其 产业 红利 在 3-5 年 之 内 会 尘埃 落 定 ， 第 二 
个 时 间 节 点 是 10 年 之 内 , 一 半 以 上 的 现 有 工作 会 被 人 工 智能 替代 ; 第 三 个 时 间 节 点 是 30 年 之 
内 ， 人 工 智能 将 具备 自我 觉醒 的 能 力 。 在 硅谷 备 受 推崇 的 观点 也 是 在 未 来 30 年 内 ，90% 的 工 
作 会 因 人 工 智 能 技术 的 进步 而 被 淘汰 。 

伴随 着 人 工 智能 的 兴起 , 技术 威胁 论 引 发 的 一 系列 谈论 从 未 停止 过 , 技术 庄 挟 着 变革 力量 
推动 时 代 向 前 发 展 ,这 也 意味 着 与 时 代 脱 离 的 观念 和 行为 将 会 被 抛弃 : 工业 革命 瓦解 小 农 经 济 ， 
互联 网 时 代 颠 覆 线 下 经 济 实体 ， 人 工 智 能 技术 将 会 取代 传统 耗 时 、 重 复 性 、 机 械 化 的 运动 , 机 
器 成 为 生产 主力 ， 同 时 与 之 相对 应 的 新 兴 职 业 增多 ， 专 业 技术 人 才 的 竞争 力 加 大 。 

在 人 工 智能 取代 人 类 或 人 工 智能 增强 人 类 能 力 的 讨论 之 余 ,用 户 所 能 做 的 只 有 强化 自身 的 
能 力 , 发 挥 主体 的 不 可 蔡 代 性 。 而 在 人 工 智能 领域 中 的 基因 重组 、 机 器 人 学 等 超人 类 主义 项 目 ， 
仍 需要 政府 加 大 监管 力度 。 
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人 工 智能 如 今 处 在 发 展 早期 的 阶段 ， 非 常 像 十 几 年 前 互联 网 的 成 长 。 推 动 AI 发 展 的 三 个 
动力 是 算法 、 算 力 和 数据 〈 见 图 3-1) 。 第 一 个 是 算法 ， 人 工 智能 ， 尤 其 是 机 器 学 习 的 算法 在 
过 去 几 年 迅速 发 展 ， 不 断 有 各 种 各 样 的 创新 ， 深 度 学 习 、DNN、RNN、CNN 到 GAN, 不 停 
地 有 新 的 发 明 创 造 出 来 ; 第 二 个 是 计算 能 力 , 计算 的 成 本 在 不 断 下 降 ， 服务器 也 变 得 越 来 越 强 
K, 我 们 已 经 在 第 2 章 中 详细 地 介绍 了 人 工 智能 芯片 产业 ; 第 三 个 是 数据 ,数据 的 产生 仍然 在 
以 一 个 非常 高 的 速度 发 展 , 它 会 进一步 推动 算法 的 不 断 创新 , 以 及 对 计算 能 力 提 出 更 新 的 要 求 。 
数据 是 AI 的 根本 和 基础 , AI 和 大 数据 密 不 可 分 。 没 有 海量 数据 支撑 的 人 工 智能 就 是 人 工 智障 。 
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图 3-1 推动 AI 的 动力 


数据 正在 金融 、 广 告 、 零 售 、 物 流 、 影 视 等 行业 悄悄 地 改变 我 们 的 生活 。 随 着 手机 更 大 规 
模 的 普及 ， 以 及 日 新 月 异 的 可 穿戴 设备 、 智 能 家 居 ， 甚 至 是 无 人 驾驶 汽车 ， 都 在 提醒 我 们 ， 以 
互联 网 (或 者 物 联网 ) 、 云 计算 、 大 数据 为 代表 的 这 场 技术 革命 正 引领 人 类 社会 加 速 进入 农业 
时 代 、 工 业 时 代 之 后 的 一 个 新 的 发 展 阶段 一 一 数据 时 代 (DT 时 代 ) 。 前 两 个 时 代 分别 以 土地 、 
资本 为 生产 要 素 , 而 正在 我 们 面前 开启 的 数据 时 代 , 正如 其 名 , 数据 将 成 为 最 核心 的 生产 要 素 。 

大 数据 代表 了 一 种 现象 , 即 数据 的 指数 增长 超过 了 人 们 管理 、 处 理 和 应 用 数据 的 能 力 的 增 
长 。 无 论 是 对 一 个 国家 还 是 一 个 企业 ， 谁 能 缩小 这 两 个 增长 之 间 的 差距 ， 把 数据 用 好 ， 就 能 占 
有 竞争 优势 。 有 人 说 ， 当 “人 工 智能 ”和 “大 数据 ”的 压路机 压 过 来 的 时 候 ， 要 么 你 成 为 压 路 
机 的 一 部 分 ， 要 么 你 成 为 路 的 一 部 分 。 未 来 十 年 ， 人 工 智能 和 大 数据 是 非常 重要 的 一 件 事情 。 
本 轮 AI 浪潮 是 数据 驱动 的 , 算法 就 是 “ 炼 数 术 ”。 因 此 ，AI 面临 的 核心 挑战 之 一 依然 是 数据 ， 
尤其 是 做 有 监督 学 习 时 所 需要 的 高 质量 训练 数据 源 。 本 章 从 AI 的 角度 来 阐述 大 数据 。 需 要 指 
出 的 是 , 数据 分 析 不 等 于 大 数据 分 析 ， 简单 的 统计 分 析 不 是 大 数据 分 析 。 大 数据 是 基础 ， 大 数 
据 分 析 挖 掘 和 AI 是 上 端 应 用 。 本 书 中 的 大 数据 分 析 特 指 基于 AI 技术 (机 器 学 习 或 深度 学 习 ) 
的 海量 数据 分 析 。 





2.1 什么 是 大 数据 


云 计算 、 物 联网 、 移 动 互 连 、 社 交 媒 体 等 新 兴 信息 技术 和 应 用 模式 的 快速 发 展 ， 促 使 全 球 
数据 量 急 剧 增加 ,推动 人 类 社会 迈 入 大 数据 时 代 。 一 般 意 义 上 ， 大 数据 是 指 利用 现 有 理论 、 方 
法 、 技 术 和 工具 难以 在 可 接受 的 时 间 内 完成 分 析 计 算 、 整 体 呈现 高 价值 的 海量 复杂 数据 集合 。 


3.1.1 大 数据 的 特征 
大 数据 呈现 出 多 种 鲜明 的 特征 。 


© 在 数据 量 方面 ， 当 前 全 球 所 拥有 的 数据 总 量 已 经 远 远 超过 历史 上 的 任何 时 期 ， 更 为 重要 
的 是 ， 数 据 量 的 增加 速度 呈现 出 倍增 趋势 ， 并 且 每 个 应 用 所 计算 的 数据 量 也 大 幅 增 加 。 

e 在 数据 速率 方面 ， 数 据 的 产生 、 传 播 的 速度 更 快 ， 在 不 同时 空中 流转 ， 呈 现 出 鲜明 的 
流 式 特征 , 更 为 重要 的 是 , 数据 价值 的 有 效 时 间 急 剧 缩短 , 也 要 求 越 来 越 高 的 数据 计 
算 和 使 用 能 力 。 

© ”在 数据 复杂 性 方面 ,数据 种 类 繁多 ,数据 在 编码 方式 、 存 储 格式 、 应 用 特征 等 多 个 方 
面 也 存在 多 层次 、 多 方面 的 差异 性 ， 结 构 化 、 半 结构 化 、 非 结构 化 数据 并 存 ， 并 且 半 
结构 化 、 非 结构 化 数据 所 占 的 比例 不 断 增加 。 

€ ”在 数据 价值 方面 , 数据 规模 增 大 到 一 定 程度 之 后 , 隐 含 于 数据 中 的 知识 的 价值 也 随 之 
SEK, 并 将 更 多 地 推动 社会 的 发 展 和 科技 的 进步 。 此 外 , 大 数据 往往 还 呈现 出 个 性 化 、 
不 完备 化 、 价 值 稀 朴 、 交 叉 复 用 等 特征 。 


大 数据 蕴含 大 信息 ， 大 信息 提炼 大 知识 ， 大 知识 将 在 更 高 的 层面 、 更 广 的 视角 、 更 大 的 范围 
帮助 用 户 提高 洞察 力 ， 提 升 决策 力 ， 将 为 人 类 社会 创造 前 所 未 有 的 重大 价值 。 但 与 此 同时 ， 这 些 
总 量 极 大 的 价值 往往 隐藏 在 大 数据 中 ， 表 现 出 价值 密度 极 低 、 分 布 极其 不 规律 、 信 息 隐藏 程度 极 
深 、 发 现 有 用 的 价值 极其 困难 的 鲜明 特征 。 这 些 特征 必然 为 大 数据 的 计算 环节 带 来 前 所 未 有 的 挑 
战 和 机 遇 ， 并 要 求 大 数据 计算 系统 具备 高 性 能 、 实 时 性 、 分 布 式 、 易 用 性 、 可 扩展 性 等 特征 。 

如 果 将 云 计算 看 作对 过 去 传统 IT 架构 的 颠覆 ， 云 计算 也 仅仅 是 硬件 层面 对 行业 的 改造 ， 
而 大 数据 的 分 析 应 用 却 是 对 行业 中 业务 层面 的 升级 。 大 数据 将 改变 企业 之 间 的 竞争 模式 , 未 来 
的 企业 将 都 是 数据 化 生存 的 企业 ,企业 之 间 竞 争 的 焦点 将 从 资本 、 技 术 、 商 业 模式 的 竞争 转向 
对 大 数据 的 争夺 , 这 将 体现 为 一 个 企业 拥有 的 数据 的 规模 、 数据 的 多 样 性 以 及 基于 数据 构建 全 
新 的 产品 和 商业 模式 的 能 力 。 目 前 来 看 ， 越 来 越 多 的 传统 企业 看 到 了 云 计算 和 大 数据 的 价值 ， 
从 传统 的 YT 积极 向 DT 时 代 转 型 是 当前 一 段 时 间 的 主流 ， 简 单 地 解决 云 化 的 问题 ， 并 不 能 给 
其 带 来 更 多 价值 。 
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3.1.2 ”大 数据 的 误区 


大 数据 有 不 少 的 误区 。 我 们 先 看 看 大 数据 不 是 什么 。 


(1) 大 数据 去 拥有 数据 
很 多 人 觉得 拥有 数据 ,特别 是 拥有 大 量 的 数据 ,就 是 大 数据 了 ， 这 肯定 是 不 对 的 , 数据 量 


大 不 是 大 数据 ， 比 如 气象 数据 很 大 ， 如 果 仅 仅 用 于 气象 预测 ， 只 要 计算 能 力 跟 上 就 行 ， 还 远 远 
没有 发 挥 它 的 价值 .但 是 保险 公司 根据 气象 大 数据 来 预测 自然 灾害 以 及 调整 与 自然 灾害 相关 的 
保险 费 率 ， 它 就 会 演化 出 其 他 的 商业 价值 ， 形 成 大 数据 的 商业 环境 。 所以， 大 数据 要 使 用 ， 甚 
至 关联 、 交 换 才 能 产生 真正 价值 ， 形 成 特有 的 大 数据 商业 。 


据 ， 


(2) 大 数据 去 报表 平台 
有 很 多 企业 建立 了 自己 业务 的 报表 中 心 , 或 者 大 屏 展示 中 心 , 就 马上 宣布 已 经 实现 了 大 数 
这 是 远 远 不 够 的 。 报表 虽然 也 是 大 数据 的 一 种 体现 , 但 是 真正 的 大 数据 业务 不 是 生成 报表 


靠 人 来 指挥 , 那 是 披 着 大 数据 外 表 的 报表 系统 而 已 。 在 大 数据 闭环 系统 中 ,万 物 都 是 数据 产生 


者 ， 


也 是 数据 使 用 者 ， 通 过 自动 化 、 智 能 化 的 闭环 系统 自动 学 习 、 智 能 调整 ， 从 而 提升 整体 的 


生产 效率 。 


G) 大 数据 去 计算 平台 
我 们 经 常 看 到 一 些 报道 , 说 某 某 金融 机 构建 立 了 自己 的 大 数据 系统 ,后 来 仔细 一 看 , 就 是 


搭建 了 一 个 几 百 台 机 器 的 Hadoop 集群 而 已 。 大 数据 计算 平台 是 大 数据 应 用 的 技术 基础 ， 是 大 
数据 闭环 中 非常 重要 的 一 环 ， 也 是 不 可 缺少 的 一 环 ， 但 是 不 能 说 有 了 计算 平台 就 有 了 大 数据 。 
比如 我 买 了 锅 ， 不 能 说 我 已 经 有 了 菜 ， 从 锅 到 菜 还 缺 原料 数据) JA (加 工 工具 ) 、 厨 师 
(数据 加 工 )， 才 能 最 终 做 出 菜 来 。 





(4) 大 数据 去 精准 营销 
我 见 过 很 多 创业 公司 在 做 大 数据 创业 , 仔细 一 看 , 做 的 是 基于 大 数据 的 推荐 引擎 、 广 告 定 


投 等 。 这 是 大 数据 吗 ? 他 们 做 的 是 大 数据 的 一 种 应 用 ,可 以 说 已 经 是 大 数据 的 一 种 了 。 只 是 大 
数据 整个 生态 不 能 通过 这 一 种 应 用 来 表达 而 已 。 正 如 大 象 的 耳 条 是 大 象 的 一 部 分 , 但 是 不 能 代 
表 大 象 。 


3.1.3 ”大 数据 交易 难点 





在 未 来 ， 数 据 将 成 为 商业 竞争 最 重要 的 资源 ， 谁 能 更 好 地 使 用 大 数据 ， 谁 将 领导 下 一 代 的 商 


业 潮 流 。 所 谓 无 数据 ， 不 智能 ， 无 智能 ， 不 商业 。 下 一 代 的 商业 模式 就 是 基于 数据 智能 的 全 新 模 
Th, 虽然 才 开始 萌芽 ， 才 有 几 个 有 限 的 案例 ， 但 是 其 巨大 的 潜力 已 经 被 人 们 认识 到 。 简 单 地 讲 ， 
大 数据 需要 有 大 量 能 互相 连接 的 数据 (无论 是 自己 的 ， 还 是 购买 、 交 换 别人 的 ) ， 它 们 在 一 个 大 
数据 计算 平台 (或 者 能 互通 的 各 个 数据 节点 上 ) ， 有 相同 的 数据 标准 能 正确 的 关联 (如 EIL、 数 
据 标准 ) ， 通 过 大 数据 相关 处 理 技术 如 算法 、 引 擎 、 机 器 学 习 ) ， 形 成 自动 化 、 智 能 化 的 大 数 
据 产品 或 者 业务 ， 进 而 形成 大 数据 采集 、 反 馈 的 闭环 ， 自 动 智能 地 指导 人 类 的 活动 、 工 业 制 造 、 
社会 发 展 等 。 但 是 ， 数 据 交易 并 没有 这 么 简单 ， 因 为 数据 交易 涉及 以 下 几 个 非常 大 的 问题 。 
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COD 怎么 保护 用 户 隐私 信息 

在 Facebook 隐私 泄露 事件 之 后 ， 其 创始 人 兼 CEO 马克 … 扎 克 伯 格 (Mark Zuckerberg) 称 
该 公司 没 能 保护 好 用 户 的 数据 ， 承 诺 这 种 事情 永远 不 会 再 发 生 。 扎 克 伯 格 为 了 挽回 公司 声誉 ， 
大 量 投放 道歉 广告 ， 以 及 接受 国会 的 洗礼 CULPA 3-2) 。 隐 私 泄露 事件 使 得 该 公司 的 市 值 在 事 
件 爆发 的 一 周 内 蒸发 了 近 580 亿美 元 (AF 3661 亿 元 ) 。 

欧盟 已 经 出 台 了 苛刻 的 数据 保护 条 例 , 还 处 在 萌芽 状态 的 中 国 大 数据 行业 , 怎么 确保 用 户 
的 隐私 信息 不 被 泄漏 呢 ?” 对 于 一 些 非 隐私 信息 , 比如 地 理 数据 、 气象 数据 、 地 图 数据 进行 开放 、 
交易 、 分 析 是 非常 有 价值 的 ,但 是 一 旦 涉及 用 户 的 隐私 数据 ,特别 是 单个 人 的 隐私 数据 ， 就 会 
涉及 道德 与 法 律 的 风险 。 






































3-2 Facebook 创始 人 马克 。 扎 克 伯 格 在 美国 国会 做 证 


数据 交易 之 前 的 脱 敏 或 许 是 一 种 解决 办 法 , 但 是 并 不 能 完全 解决 这 个 问题 , 因此 一 些 厂商 
提出 了 另 一 种 解决 思路 ， 基 于 平台 担保 的 “可 用 不 可 见 ”技术 。 例 如 双方 的 数据 上 传 到 大 数据 
交易 平台 ,双方 可 以 使 用 对 方 的 数据 以 获得 特定 的 结果 ， 比 如 通过 上 传 一 些 算法 、 模 型 而 获得 
结果 ， 双 方 都 不 能 看 到 对 方 的 任何 详细 数据 。 


(2) 数据 的 所 有 者 问题 

数据 作为 一 种 生产 资料 ， 跟 农业 时 期 的 土地 、 工 业 时 期 的 资本 不 一 样 ,使 用 之 后 并 不 会 消 
失 。 如 果 作 为 数据 的 购买 者 , 这 个 数据 的 所 有 者 到 底 是 谁 ? 怎么 确保 数据 的 购买 者 不 会 再 次 售 
卖 这 些 数据 ? 或 者 购买 者 加 工 了 这 些 数 据 之 后 ， 加 工 之 后 的 数据 所 有 者 是 谁 ? 


(3) 数据 使 用 的 合法 性 问题 

大 数据 营销 中 ， 目 前 用 得 最 多 的 就 是 精准 营销 。 数据 交易 中 ， 最 值钱 的 也 是 个 人 数据 。 我 
们 日 常 分 析 做 的 客户 画像 ， 目 的 就 是 给 海量 客户 分 群 、 打 标签 , 然后 有 针对 性 地 开展 定向 营销 
和 服务 。 然 而 ， 如 果 利 用 用 户 的 个 人 信息 〈 比 如 年 龄 、 性 别 、 职 业 等 ) 进行 营销 ， 必 须 事先 征 
得 用 户 的 同意 ， 才 能 向 用 户 发 送 广告 信息 ， 还 是 可 以 直接 使 用 ? 

所 以 , 数据 的 交易 与 关联 使 用 必须 解决 数据 标准 、 立 法 以 及 监管 的 问题 ,在 未 来 , 不 排除 
有 专门 的 法 律 ,甚至 专业 的 监管 机 构 , 如 各 地 成 立 大 数据 管理 局 来 监管 数据 的 交易 与 使 用 问题 。 
如 果真 的 到 了 这 一 天 , 那 也 是 好 事 , 数据 要 流通 起 来 才 会 发 挥 更 大 的 价值 。 如 果 每 个 企业 都 只 
有 自己 的 数据 ， 即 使 消除 了 企业 内 部 的 信息 孤岛 ,还 有 企业 外 部 的 信息 孤岛 。 
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3.14 大 数据 的 来 源 


在 下 一 代 的 革命 中 ， 无 论 是 工业 4.0 (国内 叫 中 国 制造 2025) 还 是 物 联网 (甚至 是 一 个 全 
新 的 协议 与 标准 ) ， 随 着 数据 科学 与 云 计算 能 力 ( 甚 至 是 基于 区 块 链 的 分 布 式 计算 技术 ) 的 发 
展 ， 唯 独 数据 是 所 有 系统 的 核心 。 万 物 互 联 、 万 物 数据 化 之 后 ， 基 于 数据 的 个 性 化 、 智 能 化 将 
是 一 次 全 新 的 革命 ， 将 超越 100 多 年 前 开始 的 自动 化 生产 线 的 工业 3.0， 给 人 类 社会 整体 的 生 
产 力 提升 带 来 一 次 根本 性 的 突破 , 实现 从 0 到 1 的 巨大 变化 。 正 是 在 这 个 意义 上 , 这 是 一 场 商 
业 模 式 的 范式 革命 。 商 业 的 未 来 、 知 识 的 未 来 、 文 明 的 未 来 ， 本 质 上 就 是 人 的 未 来 。 而 基于 数 
据 智能 的 智能 商业 ， 就 是 未 来 的 起 点 。 大 数据 的 第 一 要 务 就 是 需要 有 数据 。 

关于 数据 来 源 , 普遍 认为 互联 网 及 物 联 网 是 产生 并 承载 大 数据 的 基地 。 互联 网 公司 是 天 生 
的 大 数据 公司 , 在 搜索 、 社交、 媒体 、 交 易 等 各 自 的 核心 业务 领域 , 积累 并 持续 产生 海量 数据 。 
能 够 上 网 的 智能 手机 和 平板 电脑 越 来 越 普 遍 ， 这 些 移动 设备 上 的 App 都 能 够 追踪 和 沟通 无 数 
事件 ， 从 App 内 的 交易 数据 (如 搜索 产品 的 记录 事件 ) 到 个 人 信息 资料 或 状态 报告 事件 (如 
地 点 变更 ， 即 报告 一 个 新 的 地 理 编码 )。 非 结构 数据 广泛 存在 于 电子 邮件 、 文档 、 图 片 、 音频、 
视频 以 及 通过 博客 、 维 基 , 尤其 是 社交 媒体 产生 的 数据 流 中 。 这 些 数 据 为 使 用 文本 分 析 功 能 
行 分 析 提 供 了 丰富 的 数据 源泉 ， 还 包括 电子 商务 购物 数据 、 交 易 行 为 数据 、Web 服务 器 记录 
的 网 页 点 击 流 数据 日 志 。 

物 联网 设备 每 时 每 刻 都 在 采集 数据 , 设备 数量 和 数据 量 都 在 与 日 俱 增 , 包括 功能 设备 创建 
或 生成 的 数据 ,例如 智能 电表 、 智 能 温度 控制 器 、 工 厂 机 器 和 连接 互联 网 的 家 用 电器 。 这 些 设 
备 可 以 配置 为 与 互联 网 络 中 的 其 他 节点 通信 , 还 可 以 自动 向 中 央 服 务 器 传输 数据 , 这样 就 可 以 
对 数据 进行 分 析 。 机 器 和 传感器 数据 是 来 自 物 联网 AoT) 所 产生 的 主要 例子 。 

这 两 类 数据 资源 作为 大 数据 金 矿 ,正在 不 断 产生 各 类 应 用 。 比 如 , 来自 物 联网 的 数据 可 以 
用 于 构建 分 析 模 型 ， 实 现 连 续 监测 〈 如 当 传感器 值 表示 有 问题 时 进行 识别 ) 和 预测 (如 警示 技 
术 人 员 在 真正 出 问题 之 前 检查 设备 ) 。 国 外 出 现 了 这 类 数据 资源 应 用 的 不 少 经 典 案例 。 还 有 一 
些 企 业 ， 在 业务 中 也 积累 了 许多 数据 ， 如 房地产 交易 、 大 宗 商品 价格 、 特 定 群 体 消费 信息 等 。 
从 严格 意义 上 说 , 这 些 数 据 资源 还 算 不 上 大 数据 , 但 对 商业 应 用 而 言 ， 却 是 最 易 获 得 和 比较 容 
易 加 工 处 理 的 数据 资源 ， 也 是 当前 在 国内 比较 常见 的 应 用 资源 。 

在 国内 还 有 一 类 是 政府 部 门 掌握 的 数据 资源 ， 普 遍 认为 质量 好 、 价 值 高 ， 但 开放 程度 差 。 
许多 官方 统计 数据 通过 灰色 渠道 流通 出 来 , 经 过 加 工 成 为 各 种 数据 产品 。《 大 数据 纲要 》 把 公 
共 数 据 互联 开放 共享 作为 努力 方向 ， 认 为 大 数据 技术 可 以 实现 这 个 目标 。 实 际 上 ， 长 期 以 来 ， 
政府 部 门 间 的 信息 数据 相互 封闭 割裂 是 治理 问题 而 不 是 技术 问题 .面向 社会 的 公共 数据 开放 愿 
望 虽 十 分 美好 ， 但 恐怕 一 段 时 间 内 可 望 而 不 可 即 。 

对 于 某 一 个 行业 的 大 数据 场景 , 一 是 要 看 这 个 应 用 场景 是 否 真 有 数据 支撑 , 数据 资源 是 否 
可 持续 , 来 源 渠道 是 否 可 控 , 数据 安全 和 隐私 保护 方面 是 否 有 隐患 ， 二 是 要 看 这 个 应 用 场景 的 
数据 资源 质量 如 何 ， 是 “富矿 ”还 是 “ 贫 矿 ”， 能 否 保 障 这 个 应 用 场景 的 实效 。 对 于 来 自 自 身 
业务 的 数据 资源 ,， 具有 较 好 的 可 控 性 ,数据 质量 一 般 也 有 保证 , 但 数据 覆盖 范围 可 能 有 限 ， 需 
要 借助 其 他 资源 渠道 , 对 于 从 互联 网 抓 取 的 数据 ,技术 能 力 是 关键 , 既 要 有 能 力 获 得 足够 大 的 
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量 ， 又 要 有 能 力 筛选 出 有 用 的 内 容 ; 对 于 从 第 三 方 获取 的 数据 ， 需 要 特别 关注 数据 交易 的 稳定 
性 。 数 据 从 哪里 来 是 分 析 大 数据 应 用 的 起 点 ， 如 果 一 个 应 用 没有 可 靠 的 数据 来 源 ， 再 好 、 再 高 
超 的 数据 分 析 技 术 都 是 无 本 之 木 。 我 们 经 常 看 到 , 许多 应 用 并 没有 可 靠 的 数据 来 源 ， 或 者 数据 
来 源 不 具备 可 持续 性 ， 只 是 借助 大 数据 风口 套 取 资 金 。 这 是 很 可 悲 的 。 


3.1.5 ”数据 关联 


数据 无 处 不 在 , 人 类 从 发 明文 字 开 始 , 就 开始 记录 各 种 数据 , 只 是 保存 的 介质 一 般 是 书本 ， 
这 难以 分 析 和 加 工 。 随 着 计算 机 与 存储 技术 的 快速 发 展 , 以 及 万 物 数字 化 的 过 程 (音频 数字 化 、 
图 形 数字 化 等 ) ， 出 现 了 数据 的 爆发 。 而 且 数据 爆发 的 趋势 随 着 万 物 互联 的 物 联网 技术 的 发 展 
会 越 来 越 迅 速 。 同 时 ， 对 数据 的 存储 技术 和 处 理 技术 的 要 求 也 会 越 来 越 高 。 据 IDC 出 版 的 数 
字 世 界 研 究 报告 显 示 ，2013 年 ， 人 类 产生 、 复 制 和 消费 的 数据 量 达到 4.4ZB。 而 到 2020 年 ， 
数据 量 将 增长 10 倍 ， 达 到 44ZB。 大 数据 已 经 成 为 当下 人 类 最 宝贵 的 财富 ， 怎 样 合理 有 效 地 
运用 这 些 数据 ， 发 挥 这 些 数据 应 有 的 作用 ， 是 大 数据 将 要 做 到 的 。 

早期 的 企业 比较 简单 , 关系 型 数据 库 中 存储 的 数据 往往 是 全 部 的 数据 来 源 , 这 个 时 候 对 应 
的 大 数据 技术 也 就 是 传统 的 OLAP 数据 仓库 解决 方案 。 因 为 关系 型 数据 库 中 基本 上 存储 了 所 
有 数据 ,往往 大 数据 技术 也 比较 简单 ， 直 接 从 关系 型 数据 库 中 获得 统计 数据 , 或 者 创建 一 个 统 
一 的 OLAP 数据 仓库 中 心 。 以 淘宝 为 例 ， 淘 宝 早期 的 数 仓 数 据 基本 来 源 于 主 业务 的 OLTP 数 
据 库 ， 数 据 不 外 乎 用 户 信息 〈 通 过 注册 、 认 证 获取 ) 、 商 品 信息 (通过 卖家 上 传 获得 ) 、 交 易 
数据 (通过 买卖 行为 获得 ) 、 收 藏 数据 (通过 用 户 的 收藏 行为 获得 ) 。 从 公司 的 业务 层面 来 看 ， 
关注 的 也 就 是 这 些 数据 的 统计 ， 比 如 总 用 户 数 ,活跃 用 户 数 , 交易 笔 数 、 金 额 (可 钻 取 到 类 目 、 
省 份 等 ) ， 支 付 宝 笔 数 、 金 额 ， 等 等 。 因 为 这 个 时 候 没有 营销 系统 ， 没 有 广告 系统 ， 公 司 也 只 
关注 用 户 、 商 品 、 交 易 的 相关 数据 ， 这 些 数据 的 统计 加 工 就 是 当时 大 数据 的 全 部 。 

但 是 ， 随 着 业务 的 发 展 ， 比 如 个 性 化 推荐 、 广 告 投放 系统 的 出 现 ， 会 需要 更 多 的 数据 来 做 
支撑 ,而 数据 库 的 用 户 数据 ， 除 了 收藏 和 购物 车 是 用 户 行为 的 体现 外 ， 用户 的 其 他 行为 (如 浏 
览 数据 、 搜 索 行为 等 ) 这 个 时 候 是 完全 不 知道 的 。 这 里 就 需要 引进 另 一 个 数据 来 源 ， 即 日 志 数 
据 ， 记 录用 户 的 行为 数据 ， 可 以 通过 Cookie 技术 ， 只 要 用 户 登 录 过 一 次 ， 就 能 与 真实 的 用 户 
取得 关联 。 比 如 通过 获取 用 户 的 浏览 行为 和 购买 行为 , 进而 可 以 给 用 户 推荐 他 可 能 感 兴趣 的 商 
m 看 了 又 看 、 买 了 又 买 就 是 基于 这 些 最 基础 的 用 户 行为 数据 做 的 推荐 算法 。 这 些 行为 数据 还 
可 以 用 来 分 析 用 户 的 浏览 路 径 和 浏览 时 长 ， 这 些 数据 是 用 来 改进 相关 电 商 产品 的 重要 依据 。 

2009 年 ， 移 动 互联 网 飞速 发 展 ， 随 着 基于 Native 技术 的 App 大 规模 出 现 ， 用 传统 日 志方 
式 获 取 移动 用 户 行为 数据 已 经 不 再 可 能 , 这 个 时 候 涌现 了 一 批 新 的 移动 数据 采集 分 析 工 具 , 通 
过 内 置 的 SDK 可 以 统计 Native 上 的 用 户 行为 数据 。 数据 是 统计 到 了 , 但 是 新 的 问题 也 诞生 了 ， 
比如 在 PC 上 的 用 户 行为 怎么 对 应 到 移动 端的 用 户 行为 ， 这 个 是 脱节 的 ， 因 为 PC 上 有 PC 上 
的 标准 ,移动 端 又 采用 了 移动 的 标准 ， 如 果 有 一 个 统一 的 用 户 库 ， 比 如 登录 名 、 邮 箱 、 身 份 证 
号 码 、 手 机 号 、IMEI 地 址 、MAC 地 址 等 ， 来 唯一 标识 一 个 用 户 ， 无 论 是 哪里 产生 的 数据 ， 只 
要 是 第 一 次 关联 上 来 ， 后 面 就 能 对 应 上 。 
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题 ， 


这 就 涉及 一 个 重要 的 话题 一 一 数据 标准 。 数 据 标准 不 仅 用 于 解决 企业 内 部 数据 关联 的 问 
比如 一 个 好 的 用 户 库 ,可 以 解决 未 来 大 数据 关联 上 的 很 多 问题 , 假定 公安 的 数据 跟 医院 的 





数据 进行 关联 打通 ,可 以 发 挥 更 大 的 价值 , 但 是 公安 标识 用 户 的 是 身份 证 , 而 医院 标识 用 户 的 
则 是 手机 号 码 ， 有 了 统一 的 用 户 库 后 ， 就 可 以 通过 ID-Mapping 技术 简单 地 把 双方 的 数据 进行 
关联 。 数据 的 标准 不 仅仅 是 企业 内 部 进行 数据 关联 非常 重要 ， 跨 组 织 、 跨 企业 进行 数据 关联 也 


非常 


重要 ， 而 业界 有 能 力 建立 类 似 用 户 库 等 数据 标准 的 公司 和 政府 部 门 并 不 多 。 
大 数据 发 展 到 后 期 ， 当 然 是 数据 越 多 越 好 ， 企 业内 部 的 数据 已 经 不 能 满足 公司 的 需要 。 比 


如 淘宝 ， 想 要 对 用 户 进行 一 个 完整 的 画像 分 析 ， 想 获得 用 户 的 实时 地 理 位 置 、 爱 好 、 星 座 、 消 
费 水 平 、 开 什么 样 的 车 等 ,用 于 精准 营销 。 淘 宝 自 身 的 数据 是 不 够 的 ， 这 个 时 候 ， 很 多 企业 就 
会 去 购买 一 些 数据 (有些 企业 也 会 自己 去 肘 取 一 些 信息 ， 这 个 相对 简单 一 点 ) ， 比 如 阿里 收购 
高 德 ， 采 购 微 博 的 相关 数据 ， 用 于 用 户 的 标签 加 工 ， 获 得 更 精准 的 用 户 画像 。 


3.46 ”大 数据 生产 链 





如 图 3-3 所 示 ， 大 数据 生产 全 链条 覆盖 数据 采集 、 计 算 引 擎 、 数 据 加 工 、 数 据 可 视 化 、 机 


器 学 习 、 数 据 应 用 等 。 计 算 引 擎 包括 Hadoop 生态 系统 、 底 层 计 算 平 台 、 开 发 工具 /组 件 ， 基 于 
各 自 算法 的 计算 引擎 /服务 ， 以 及 最 上 层 的 各 种 数据 应 用 /产品 。 





PC APP WIFI 基站 工业 传感器 PU 大 规模 计算 实时 计算 流 式 计算 Wk o MA 关联 VA 


打通 数据 采集 、 加 工 、 分 析 全 链条 


era rl 
精准 营销 W Er ”政务 ”预测 决策 树 EK 神经 网 络 支持 向 量 机 目录 地 图 


图 3-3 大 数据 产业 链 


3.1.7 大 数据 怎么 用 





如 何 把 数据 资源 转化 为 解决 方案 , 实现 产品 化 ， 是 我 们 特别 关注 的 问题 。 大 数据 只 是 一 种 


手段 ， 并 不 能 无 所 不 包 、 无 所 不 用 。 我 们 关注 大 数据 能 做 什么 、 不 能 做 什么 ， 现 在 看 来 ， 大 数 


据 主 要 有 以 下 几 种 较为 常用 的 功能 。 
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e R: 互联 网 和 物 联网 无 时 无 刻 不 在 记录 ， 大 数据 可 以 追踪 、 追 溯 任何 记录 ， 形 成 真 


实 的 历史 轨迹 。 追 踪 是 许多 大 数据 应 用 的 起 点 ， 包 括 消 费 者 购买 行为 、 购 买 偏好 、 支 
付 手 段 、 搜 索 和 浏览 历史 、 位 置信 息 等 。 

@ Ral: 在 对 各 种 因素 全 面 追踪 的 基础 上 ， 通 过 定位 、 比 对 、 筛 选 可 以 实现 精准 识别 ， 

尤其 是 对 语音 、 图 像 、 视 频 进 行 识别 ， 使 可 分 析 的 内 容 大 大 丰富 ， 得 到 的 结果 更 为 精 

准 。 

e 画像: 通过 对 同一 主体 不 同 数据 源 的 追踪 、 识 别 、 匹 配 ， 形 成 更 立体 的 刻画 和 更 全 面 
的 认识 。 对 消费 者 画像 ， 可 以 精准 地 推送 广告 和 产品 ; 对 企业 画像 ， 可 以 准确 地 判断 
其 信用 及 面临 的 风险 。 

e dn: 在 历史 轨迹、 识别 和 画像 基础 上 ， 对 未 来 趋势 及 重复 出 现 的 可 能 性 进行 预测 ， 
当 某 些 指标 出 现 预期 变化 或 超 预期 变化 时 给 予 提示 ,预警 .以 前 也 有 基于 统计 的 预测 ， 
大 数据 大 大 丰富 了 预测 手段 ， 对 建立 风险 控制 模型 有 深刻 意义 。 

e Lit: 在 海量 信息 中 精准 追踪 和 识别 ， 利 用 相关 性 、 接 近 性 等 进行 第 选 比 对 ， 更 有 效 
率 地 实现 产品 搭 售 和 供需 匹配 。 大 数据 匹配 功能 是 互联 网 约 车 、 租 房 、 金 融 等 共享 经 
济 新 商业 模式 的 基础 。 

e ”优化 : 按 距离 最 短 、 成 本 最 低 等 给 定 的 原则 ， 通 过 各 种 算法 对 路 径 、 资 源 等 进行 优化 
配置 。 对 企业 而 言 , 提高 服务 水 平 , 提升 内 部 效率 ; 对 公共 部 门 而 言 , 节约 公共 资源 ， 
提升 公共 服务 能 力 。 


上 述 概括 并 不 一 定 完备 ， 大 数据 肯定 还 有 其 他 更 好 的 功能 。 当 前 许多 貌似 复杂 的 应 用 ， 大 都 
可 以 细 分 成 以 上 几 种 类 型 。 例 如 ， 大 数据 精准 扶贫 项 目 ， 从 大 数据 应 用 角度 ， 通 过 识别 、 画 像 ， 
可 以 对 贫困 户 实现 精准 筛选 和 界定 ， 找 对 扶贫 对 象 ， 通 过 追踪 、 提 示 ， 可 以 对 扶贫 资金 、 扶 贫 行 
为 和 扶贫 效果 进行 监控 和 评估 ， 通 过 配对 、 优 化 ， 可 以 更 好 地 发 挥 扶贫 资源 的 作用 。 这 些 功能 也 
并 不 都 是 大 数据 所 特有 的 ， 只 是 大 数据 远 远 超出 了 以 前 的 技术 ， 可 以 做 得 更 精准 、 更 快 、 更 好 。 


3.2 国内 大 数据 现状 


未 来 的 企业 一 定 是 数字 化 的 。 当 企业 把 业务 从 线 下 搬 到 了 线 上 ， 和 客户 的 连接 已 经 开始 了 
数字 化 的 旅程 ， 所 有 的 沟通 过 程 都 会 被 记录 ， 使 得 企业 对 用 户 的 了 解 前 所 未 有 的 细致 和 全 面 。 
或 许 某 一 天 ， 一 个 客户 来 到 你 的 公司 ， 你 会 说 : “根据 你 在 淘宝 、 京 东 和 其 他 场所 的 消费 习惯 
和 信用 ， 本 企业 对 你 的 欢迎 指数 是 16.8%”。 想 想 看 ， 这 是 多 么 可 怕 的 事情 。 从 商业 上 说 ， 企 
业 可 以 通过 对 海量 的 用 户 数据 分 析 来 完善 产品 或 服务 。 未 来 的 竞争 一 定 是 面向 数据 的 竞争 , 数 
据 累计 得 越 多 ， 你 对 用 户 越 了 解 ， 你 的 业务 就 越 具有 独特 性 ， 别 人 难以 复制 。 

未 来 的 政府 也 一 定 是 数字 化 的 。 政 府 层面 对 大 数据 分 析 应 用 可 以 完善 公共 服务 。 比 如 , 一 
个 地 区 的 地 方 政府 能 够 掌握 新 生 婴 儿 的 出 生 数量 、 分 布 区 域 、 未 来 的 入 学 需求 等 数据 ， 就 可 以 
预测 几 年 之 后 当地 对 于 学 校 等 教育 资源 的 供给 是 否 足够 。 政 府 部 门 的 大 数据 部 门 的 一 个 目标 是 
预警 ， 通 过 应 用 大 数据 来 进行 社会 治理 ， 从 而 为 当地 百姓 提供 更 好 的 服务 。 
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最 近 几 年 ,大 数据 理念 在 国内 已 经 深入 人 心 ， 人 们 对 大 数据 的 认识 也 更 加 具体 化 , “用 数 
据说 话 ” 已 经 成 为 国内 很 多 人 的 共识 ， 大 数据 分 析 和 大 数据 建设 被 各 行 各 业 所 重视 ， 数 据 成 为 
堪 比 石油 的 战略 资源 。 对 应 石油 产业 中 的 油田 、 治 炼 和 消费 三 个 环节 , 数据 产业 主要 包括 数据 
源 、 加 工 以 及 应 用 三 大 类 。 今 天 的 大 数据 生态 就 是 想 让 数据 来 源 更 丰富 ， 让 数据 加 工 更 高 效 ， 
让 数据 应 用 市 场 更 广阔 。 大 数据 实践 逐渐 落地 ， 国 内 的 大 数据 产业 政策 日 渐 完 善 ， 技 术 、 应 用 
和 产业 都 取得 了 非常 明显 的 进展 。 


3.2.1 





政策 持续 完善 


在 顶层 设计 上 ， 国 务 院 《 促 进 大 数据 发 展 行动 纲要 》 对 政务 数据 共享 开放 、 产 业 发 展 和 安 





全 三 方 














做 了 总 体 部 署 。 数 据 共享 开放 方面 的 《政务 信息 资源 共享 管理 暂行 办 法 》、 产 业 发 展 


方面 的 工信部 《大 数据 产业 发 展 规划 (2016-2020) 》、 数 据 安 全 方面 的 《中 华人 民 共 和 国 网 
络 安全 法 》 等 也 都 已 出 台 。 卫 计 、 环 保 、 农 业 、 检 察 、 税 务 等 部 门 还 出 台 了 领域 大 数据 发 展 的 
具体 政策 。 此 外 ，17 个 省 市 发 布 了 大 数据 发 展 规划 ， 十 几 个 省 市 设立 了 大 数据 管理 局 ，8 个 国 
家 大 数据 综合 试验 区 、11 个 国家 工程 实验 室 已 启动 建设 。 可 以 说 ， 适 应 大 数据 发 展 的 政策 环 
境 已 经 初步 形成 。 

从 时 间 上 看 , 最 早 成 立 的 是 广东 省 大 数据 管理 局 , 而 级 别 最 高 的 则 是 贵州 省 大 数据 发 展 管 
理 局, 它 是 省 政府 直属 的 正厅 级 部 门 。 此 外 ， 因 与 阿里 合作 而 备 受 瞩目 的 杭州 市 数据 资源 管理 
局 也 是 大 数据 的 政府 部 门 。 各 地 设立 的 大 数据 部 门 的 名 称 各 不 相同 ， 有 些 叫 大 数据 管理 局 ， 如 
上 述 的 广东 省 大 数据 管理 局 、 贵 州 省 大 数据 发 展 管理 局 有 些 叫 数据 资源 局 ， 如 杭州 市 数据 资 
源 管理 局 、 合 肥 市 数据 资源 局 ; 还 有 一 些 名 字 ， 如 佛山 南海 区 的 数据 统筹 局 、 江 门市 的 网 络 信 
息 统筹 局 、 铜 陵 市 的 信息 化 管理 办 公 室 、 成 都 市 政府 的 大 数据 办 等 。 由 于 各 级 省 市 政府 对 大 数 
据 部 门 的 定位 不 同 , 这 就 造成 了 各 个 地 方 大 数 据 部 门 的 职能 侧重 、 级别、 隶属 关系 等 各 不 相同 。 
在 这 些 大 数据 部 门 中 ,大 部 分 隶属 于 各 省 市 的 工 信 委 或 经 信 委 ， 另 一 部 分 挂靠 在 当地 政府 , 或 
由 省 、 市 政府 直接 管辖 。 一 般 隶 属于 经 信 委 、 工 信 委 的 大 数据 部 门 会 更 加 偏重 于 产业 方面 的 大 
数据 工作 ,而 直接 隶属 或 挂靠 于 各 级 省 市 政府 的 大 数据 部 门 可 能 会 更 加 侧重 于 政务 数据 工作 的 
开展 以 及 社会 治理 的 推进 。 





3.2.2 


技术 和 应 用 逐步 落地 


开源 给 国内 大 数据 产业 界 提供 了 一 个 跳板 ,让 我 们 与 国际 上 大 数据 技术 水 平 的 差距 不 断 缩 
小 。 在 海量 数据 分 布 式 存储 、 计 算 任务 切片 调度 、 节 点 通信 协调 同步 、 数 据 计算 监控 、 硬 件 架 


构 等 方 




















国内 不 少 企业 都 具备 一 定 的 技术 水 平 。 与 此 同时 ， 国产 化 的 商用 大 数据 平台 产品 正 


在 崛起 ， 底 层 技术 越 来 越 扎实 。 

大 数据 应 用 逐步 落地 。 在 金融 领域 ， 商 业 银行 全 面部 署 大 数据 基础 设施 ， 五 大 国有 银行 、 
股份 制 银行 、 城 商行 和 农 商 行 已 经 逐步 开始 从 传统 数据 仓库 架构 向 大 数据 平台 架构 的 转型 改造 
过 程 ， 基 于 大 数据 风 控 的 “ 秒 贷 ” 业 务 越 来 越 普及 ， 不 仅 提升 了 贷款 效率 ,还 扩大 了 普 惠 金融 
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。 在 电信 领域， 中 国电 信 的 大 数据 平台 己 经 扩展 到 31 个 省 ， 汇 聚 全 国 的 基础 数据 形 


成 “天 翼 大 数据 ”服务 能 力 ; 中 国联 通 也 实现 了 数据 整合 ， 大 数据 产品 体系 已 经 推出 征 信 、 指 
数 、 营 销 等 六 大 产品 种 类 。 

围绕 数据 的 产生 、 汇 聚 、 处 理 、 应 用 、 管 控 等 环节 的 产业 生态 从 无 到 有 ， 不 断 壮 大 。 中 国 
信息 通信 研究 院 发 布 的 《中 国 大 数据 产业 调查 报告 (2017 年 ) 》 显 示 ，2016 年 ， 中 国 大 数据 
核心 产业 软件、 硬件 及 服务 ) 的 市 场 规模 为 168 亿 元 ， 较 2015 年 增长 达 45%， 预 计 到 2020 
年 将 达到 578 亿 元 。 


3.2.3 ”数据 产生 价值 难 


数据 产生 价值 链条 长 。 很 多 政府 部 门 和 企业 不 知道 数据 怎么 用 ,或 者 没有 支撑 的 数据 平台 。 
对 于 它们 来 说 ， 把 数据 变 成 价值 的 链条 是 非常 长 的 。 从 采集 、 整 合 到 分 析 ， 整 个 链条 涉及 的 部 
门 比较 多 。 涉 及 业务 部 门 、 数 据 平台 部 门 、 数 据 分 析 与 数据 产品 部 门 ， 而 后 又 回 到 业务 部 门 ， 
这 个 链条 非常 长 。 这 决定 了 要 让 数据 产生 价值 很 困难 。 

关于 数据 变现 ， 有 一 个 更 有 意思 的 例子 ,告诉 我 们 只 要 合理 地 使 用 数据 ,就 可 以 把 “数据 
产生 价值 链条 长 ”的 问题 简化 , 合理 的 数据 平台 有 助 于 缩短 这 个 链条 , 让 数据 为 企业 产生 价值 。 
这 个 例子 是 : 有 位 风水 大 师 一 卦 3 万 多 , 这 位 大 师 是 怎么 做 到 的 ? 他 在 美容 院 购买 女性 客户 的 
信息 ， 然 后 整理 这 些 女性 与 美容 师 聊 天 时 透露 的 信息 , 之 后 再 做 关联 整理 分 析 。 然 后 找 机 会 接 
触 这 些 女性 进行 算 卦 ， 道 出 你 的 年 龄 、 家 庭 、 身 体 状 况 、 是 否 手术 、 哪 里 有 痣 、 兴 趣 爱好 等 。 
这 些 女性 当时 就 觉得 “真神 ”， 之 后 形成 口碑 传播 ， 生 意 红火 ， 真 正 的 数据 产生 了 价值 。 


3.24 ”问题 与 机 遇 并 存 


从 数据 的 产生 端 到 数据 价值 链条 项 端的 决策 行动 支持 ， 要 经 过 整合 、 管 理 、 分 析 、 洞 察 这 
几 个 关键 步骤 , 在 当前 国内 的 大 数据 生态 中 , 大 数据 价值 实现 的 难点 和 重点 在 于 数据 的 有 效 融 
合 和 深度 分 析 。 


1. 打破 数据 孤岛 


人 人 都 想 要 别人 的 数据 , 但 都 不 愿意 把 自己 的 数据 给 别人 , 这 是 目前 的 数据 现状 。 以 前 信 
息 系统 建设 都 从 一 个 个 “ 烟 向 ”开始 ,数据 缺乏 互通 的 技术 基础 ， 这 是 大 数据 需要 解决 的 第 一 
个 大 问题 。 从 国家 层面 到 企业 内 部 ,情况 大 同 小 异 。 麦 肯 锡 的 一 份 报告 显示 ， 大 数据 在 很 多 领 
域 没 有 达到 预期 效果 ,很 重要 的 原因 就 是 数据 割裂 。 这 些 年 , 推动 数据 开放 共享 的 政策 举措 一 
直 在 加 强 ， 政 策 已 经 很 给 力 了 ， 但 效果 与 预期 还 有 距离 。 这 时 就 需要 技术 来 推进 。 


2. 加 强 数 据 管理 


数据 分 析 工 作 往往 有 80% 的 时 间 和 精力 都 耗费 在 采集 、 清 洗 和 加 工 数据 上 。 数 据 质量 不 
过 关 ， 也 会 让 数据 分 析 效 果 大 打折 扣 ， 甚 至 让 分 析 结 果 廖 以 千里 。 很 多 单位 大 数据 的 应 用 效果 
DE, 多 半 问 题 出 在 数据 管理 上 。 大 家 都 同意 把 数据 当 作 资产 ,甚至 认为 有 朝 一 日 数据 会 计 入 
资产 负债 表 。 但 对 比 桌 椅 板 使 这 些 实物 资产 ， 我 们 对 数据 资产 的 管理 还 处 于 非常 原始 的 阶段 。 
我 们 往往 对 自己 的 数据 资产 有 哪些 、 有 多 少 都 不 清楚 , 更 别 说 数据 质量 、 数 据 安全 、 资产 评估 、 
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资产 交换 交易 等 精细 管理 、 价 值 挖掘 和 持续 运营 了 。 

然而 ， 数 据 管理 不 像 数 据 分 析 挖掘 那么 光鲜 亮丽 ， 就 像 城 市 的 “下 水 道 工 程 ”， 短 期 只 有 
投入 而 看 不 见 产 出 。 但 长 期 又 不 得 不 做 ， 这 是 战略 层面 的 事 ， 当 前 不 做 未 来 返工 的 成 本 巨大 。 
以 后 每 个 企业 都 将 成 为 数据 驱动 的 企业 ， 打 基础 的 事情 要 尽早 。 

3. 深化 领域 应 用 

虽然 大 数据 的 应 用 取得 了 一 定 进展 ,在 互联 网 、 金 融 、 电 信 、 交 通 等 领域 产生 了 实 实在 在 
的 效益 ， 旅 游 、 环 保 、 公 安 、 医 疗 、 工 业 领 域 也 正在 加 速 发 展 。 但 总 体 上 只 能 说 刚刚 走出 了 小 
半 步 。 一 类 是 “平行 蔡 代 ”， 如 人 金融 和 电信 行业 用 Hadoop 来 重 构 原来 昂贵 的 数据 仓库 ， 另 一 
类 则 是 “补课 ”， 如 政务 、 医 疗 、 工 业 、 环 保 等 领域 ， 正 在 做 的 工作 是 在 原 有 业务 系统 之 外 ， 
新 建 本 来 早 该 建设 的 数据 平台 。 

这 些 大 数据 应 用 显然 还 不 够 高 大 上 , 是 量变 而 非 质变 , 但 的 确 也 是 发 展 必 经 的 阶段 。 随 着 
这 些 “ 蔡 代 ” 型 或 “补课 ”型 应 用 的 深入 ， 未 来 业务 与 数据 将 加 深 融 合 ， 越 来 越 多 数据 驱动 的 
新 模式 、 新 业态 值得 所 有 人 期 待 。 也 只 有 这 样 ， 数 据 强国 战略 才能 落 到 实处 。 





可 .二 大 数据 的 计算 模式 


大 数据 的 计算 模式 可 以 分 为 批量 计算 (batch computing) 和 流 式 计算 (stream computing) 
两 种 形态 。 如 图 3-4 左 图 所 示 ， 批 量 计 算 首 先进 行 数据 的 存储 ， 然 后 对 存储 的 静态 数据 进行 集 
中 计算 。Hadoop 是 典型 的 大 数据 批量 计算 架构 ， 由 HDFS 分 布 式 文件 系统 负责 静态 数据 的 存 
储 ， 并 通过 MapReduce 将 计算 罗 辑 分 配 到 各 数据 节点 进行 数据 计算 和 价值 发 现 。 

如 图 3-4 右 图 所 示 ， 在 流 式 计算 中 ， 无 法 确定 数据 的 到 来 时 刻 和 到 来 顺序 ， 也 无 法 将 全 部 
数据 存储 起 来 。 因 此 ， 不 再 进行 流 式 数据 的 存储 ， 而 是 当 流 动 的 数据 到 来 后 ,在 内 存 中 直接 进 
行 数据 的 实时 计算 。 例 如 Twitter 的 Storm、Yahoo 的 S4 就 是 典型 的 流 式 数据 计算 架构 ， 数 据 
在 任务 拓扑 中 被 计算 ， 并 输出 有 价值 的 信息 。 


数据 存储 数据 处 理 流 数据 处 理 
内 存 Sf | fV 
PH 1 8B 内 存 | Li egiii 





"SC 数据 存储 MS 
ax Ei 
图 3-4 大 数据 批量 计算 〈 左 图 ) 和 流 式 计 算 CAR) 
流 式 计算 和 批量 计算 分 别 适用 于 不 同 的 大 数据 应 用 场景 。 对 于 先 存储 后 计算 , 实时 性 要 求 
不 高 ， 同 时 数据 的 准确 性 、 全 面 性 更 为 重要 的 应 用 场景 ,批量 计算 模式 更 合适 ， 对 于 无 须 先 存 


储 ， 可 以 直接 进行 数据 计算 ， 实 时 性 要 求 很 严格 ， 但 数据 的 精确 度 要 求 稍微 宽松 的 应 用 场景 ， 
流 式 计算 具有 明显 优势 。 流 式 计算 中 ,数据 往往 是 最 近 一 个 时 间 窗 口内 的 ， 因 此 数据 延迟 往往 
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较 短 ， 实 时 性 较 强 ， 但 数据 的 精确 程度 往往 较 低 。 流 式 计算 和 批量 计算 具有 明显 的 优 劣 互补 特 
征 , 在 多 种 应 用 场合 下 可 以 将 两 者 结合 起 来 使 用 。 通过 发 挥 流 式 计算 的 实时 性 优势 和 批量 计算 
的 精度 优势 ， 满 足 多 种 应 用 场景 在 不 同 阶段 的 数据 计算 要 求 。 

目前 ， 关 于 大 数据 批量 计算 相关 技术 的 研究 相对 成 熟 ， 形 成 了 以 谷歌 的 MapReduce 编程 
模型 、 开 源 的 Hadoop 计算 系统 为 代表 的 高 效 、 稳 定 的 批量 计算 系统 ， 在 理论 上 和 实践 中 均 取 
得 了 显著 成 果 。 现 有 的 大 数据 流 式 计算 系统 实例 有 Storm 系统 、Kafka 系统 、Spark 系统 等 。 
本 节 对 这 几 款 大 数据 流 式 计算 系统 进行 实例 分 析 。 


3.3.1 流 式 计算 的 应 用 场景 


流 式 大 数据 呈现 出 实时 性 、 易 失 性 、 突 发 性 、 无 序 性 、 无 限 性 等 特征 ， 对 系统 提出 了 很 多 
新 的 更 高 的 要 求 。2010 年 ，Yahoo 推出 了 S4 流 式 计算 系统 ，2011 4E, Twitter 推出 了 Storm 
流 式 计 算 系统 , 在 一 定 程度 上 推动 了 大 数据 流 式 计算 技术 的 发 展 和 应 用 。 但 是 , 这 些 系 统 在 可 
伸缩 性 、 系 统 容错 、 状 态 一 致 性 、 负 载 均 衔 、 数 据 吞 吐 量 等 诸多 方面 仍然 存在 着 明显 不 足 。 如 
何 构建 低 延 迟 、 高 吞吐 且 持续 可 靠 运行 的 大 数据 流 式 计算 系统 是 当前 吕 待 解决 的 问题 。 

大 数据 流 式 计算 主要 用 于 对 动态 产生 的 数据 进行 实时 计算 并 及 时 反馈 结果 ,但 往往 不 要 求 
结果 绝对 精确 的 应 用 场景 。 在 数据 的 有 效 时 间 内 获取 其 价值 , 是 大 数据 流 式 计算 系统 的 首要 设 
计 目 标 。 因 此 ， 当 数据 到 来 后 ， 将 立即 对 其 进行 计算 ， 而 不 再 对 其 进行 缓存 ， 等 待 后 续 全 部 数 
据 到 来 再 进行 计算 。 大 数据 流 式 计算 的 应 用 场景 较 多 ， 按 照 数据 的 产生 方式 、 数 据 规模 大 小 以 
及 技术 成 熟 度 高 低 3 个 不 同 维度 , 金融 银行 业 应 用 、 互 联网 应 用 和 物 联网 应 用 是 3 种 典型 的 应 
用 场景 , 体现 了 大 数据 流 式 计算 的 基本 特征 。 从 数据 产生 方式 上 看 , 它们 分 别 是 被 动产 生 数据 、 
主动 产生 数据 和 自动 产生 数据 ; 从 数据 规模 上 看 ,它们 处 理 的 数据 分 别 是 小 规模 、 中 规模 和 大 
规模 ， 从 技术 成 熟 度 上 看 ， 它 们 分 别 是 成 熟 度 高 、 成 熟 度 中 和 成 熟 度 低 的 数据 。 


(1) 金融 银行 业 的 应 用 

在 金融 银行 领域 的 日 常 运营 过 程 中 ， 往 往 会 产生 大 量 数据 ， 这 些 数据 的 时 效 性 往往 较 短 。 
因此 , 金融 银行 领域 是 大 数据 流 式 计算 最 典型 的 应 用 场景 之 一 , 也 是 大 数据 流 式 计算 最 早 的 应 
用 领域 。 在 金融 银行 系统 内 部 ,每 时 每 刻 都 有 大 量 的 结构 化 数据 在 各 个 系统 间 流 动 ， 并 需要 实 
时 计算 。 同时, 金融 银行 系统 与 其 他 系统 也 有 着 大 量 的 数据 流动 , 这 些 数据 不 仅 有 结构 化 数据 ， 
也 会 有 半 结 构 化 和 非 结构 化 数据 。 通 过 对 这 些 大 数据 的 流 式 计算 ,发 现 隐 含 于 其 中 的 内 在 特征 ， 
可 以 帮助 金融 银行 系统 进行 实时 决策 。 在 金融 银行 的 实时 监控 场景 中 , 大 数据 流 式 计算 往往 体 
现 出 了 自身 的 优势 。 


@ ”风险 管理 : 包括 信用 卡 诈 骗 、 保 险 诈骗 、 证 券 交 易 诈骗 、 程 序 交易 等 ， 这 些 需 要 实时 
跟踪 发 现 。 

@ SASH: 如 根据 客户 信用 卡 消费 记录 ,掌握 客户 的 消费 习惯 和 偏好 ， 预 测 客户 未 来 
的 消费 需求 ， 并 为 其 推荐 个 性 化 的 金融 产品 和 服务 。 

e 商业 智能 : 如 掌握 金融 银行 系统 内 部 各 系统 的 实时 数据 , 实现 对 全 局 状态 的 监控 和 优 
化 ， 并 提供 决策 支持 。 
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(2) 互联 网 领域 的 应 用 

随 着 互联 网 技术 的 不 断 发 展 , 特别 是 Web 2.0 时 代 的 到 来 , 用 户 可 以 实时 分 享 和 提供 各 类 
数据 。 不 仅 使 得 数据 量 大 为 增加 ， 也 使 得 数据 更 多 地 以 半 结 构 化 和 非 结 构 化 的 形态 呈现 。 据 统 
计 ， 目 前 互联 网 中 75% 的 数据 来 源 于 个 人 ， 主 要 以 图 片 、 音 频 、 视 频数 据 形式 存在 ， 需 要 实 
时 分 析 和 计算 这 些 大 量 、 动 态 的 数据 。 在 互联 网 领域 中 , 大 数据 流 式 计算 的 典型 应 用 场景 如 下 。 


搜索 引擎 : 搜索 引擎 提供 商 们 往往 会 在 反馈 给 客户 的 搜索 页 面 中 加 入 点 击 付费 的 广告 

信息 。 插入 什么 广告 、 在 什么 位 置 插入 这 些 广 告 才能 得 到 最 佳 效果 ,往往 需要 根据 客 

户 的 查询 偏好 、 浏 览 历史 、 地 理 位 置 等 综合 语义 进行 决定 。 而 这 种 计算 对 于 搜索 服务 

器 而 言 往往 是 大 量 的 : 一 方面 ， 每 时 每 刻 都 会 有 大 量 客户 进行 搜索 请 求 ; 另 一 方面 

数据 计算 的 时 效 性 极 低 ， 需 要 保证 极 短 的 响应 时 间 。 

社交 网 站 : 需要 实时 分 析 用 户 的 状态 信息 , 及 时 提供 最 新 的 用 户 分 享 信息 给 相关 的 朋 
A, 准确 地 推荐 朋友 ,推荐 主题 , 提升 用 户 体验 , 并 能 及 时 发 现 和 屏蔽 各 种 欺骗 行为 。 


G) 物 联网 领域 的 应 用 

在 物 联网 环境 中 (如 环境 监测 ) ， 各 个 传感器 产生 大 量 数 据 。 这 些 数 据 通常 包含 时 间 、 位 
置 、 环 境 和 行为 等 内 容 , 具有 明显 的 颗粒 性 。 由 于 传感器 的 多 元 化 、 差异 化 以 及 环境 的 多 样 化 ， 
这 些 数据 呈现 出 鲜明 的 异 构 性 、 多 样 性 、 非 结构 化 、 有 噪声、 高 增长 率 等 特征 。 所 产生 的 数据 
量 之 密集 、 实 时 性 之 强 、 价 值 密度 之 低 是 前 所 未 有 的 ， 需 要 进行 实时 、 高 效 的 计算 。 在 物 联网 





领域 中 ， 


大 数据 流 式 计算 的 典型 应 用 场景 如 下 。 


智能 交通 : 通过 传感器 实时 感知 车 辆 、 道 路 的 状态 ， 并 分 析 和 预测 一 定 范围 、 一 段 时 
间 内 的 道路 流量 情况 ， 以 便 有 效 地 进行 分 流 、 调 度 和 指挥 。 

环境 监控 : 通过 传感器 和 移动 终端 对 一 个 地 区 的 环境 综合 指标 进行 实时 监控 、 远 程 查 
看 、 智 能 联动 、 远 程控 制 ， 系 统 地 解决 综合 环境 问题 。 


上 述 这些 应 用 场景 对 计算 系统 的 实时 性 、 吞 吐 量 、 可 靠 性 等 方面 都 提出 了 很 高 要 求 。 大 数 
据 流 式 计算 的 3 种 典型 应 用 场景 的 对 比如 下 。 


3.3.2 


从 数据 的 产生 方式 看 ， 金 融 银行 领域 的 数据 往往 是 在 系统 中 被 动产 生 的 ， 互 联网 领域 的 
数据 往往 是 人 为 主动 产生 的 ， 物 联网 领域 的 数据 往往 是 由 传感器 等 设备 自动 产生 的 。 
从 数据 的 规模 来 看 , 金融 银行 领域 的 数据 与 互联 网 、 物 联网 领域 的 数据 相 比 较 少 , 物 
联网 领域 的 数据 规模 是 最 大 的 , 但 受制 于 物 联网 的 发 展 阶段 ,当前 实际 拥有 数据 规模 
最 大 的 是 互联 网 领域 。 

从 技术 成 熟 度 来 看 , 金融 银行 领域 的 流 式 大 数据 应 用 最 为 成 熟 , 从 早期 的 复杂 事件 处 
理 开始 就 呈现 了 大 数据 流 式 计算 的 思想 ,互联 网 领域 的 发 展 将 大 数据 流 式 计算 真正 扒 
向 历史 姓 台 ， 物 联网 领域 的 发 展 为 大 数据 流 式 计算 提供 了 重要 的 历史 机 遇 。 


流 式 大 数据 的 特征 
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3-5 用 有 向 无 环 图 (Directed Acyclic Graph, DAG) 描述 了 大 数据 流 的 计算 过 程 。 其 中 ， 


圆 形 表示 数据 的 计算 节点 ， 箭 头 表示 数据 的 流动 方向 。 


5 = = Xo Orana] 
mA  )-X )—* Y bem 


3-5 WENA 
与 大 数据 批量 计算 不 同 ， 大 数据 流 式 计算 中 的 数据 流 主要 体现 了 如 下 5 个 特征 。 
1. 实时 性 


流 式 大 数据 是 实时 产生 、 实 时 计算 的 , 结果 反馈 往往 也 需要 保证 及 时 性 。 流 式 大 数据 价值 的 有 
效 时 间 往 往 较 短 , 大 部 分 数据 到 来 后 直接 在 内 存 中 进行 计算 并 丢弃 ， 只 有 少量 数据 才 被 长 久保 存 到 
硬盘 中 。 这 就 需要 系统 有 足够 的 低 延迟 计算 能 力 ,可 以 快速 地 进行 数据 计算 ， 在 数据 价值 有 效 的 时 
间 内 体现 数据 的 有 用 性 。 对 于 时 效 性 特别 短 、 潜 在 价值 又 很 大 的 数据 可 以 优先 计算 。 

2. 易 失 性 

在 大 数据 流 式 计算 环境 中 ， 数 据 流 往往 是 到 达 后 立即 被 计算 并 使 用 。 在 一 些 应 用 场景 中 
只 有 极 少 数 的 数据 才 会 被 持久 化 地 保存 下 来 , 大 多 数 数 据 往 往 会 被 直接 丢弃 。 数据 的 使 用 往往 
是 一 次 性 的 、 易 失 的 ， 即 使 重 放 ， 得 到 的 数据 流 和 之 前 的 数据 流 往往 也 是 不 同 的 。 这 就 需要 系 
统 具 有 一 定 的 容错 能 力 ， 要 充分 地 利用 好 仅 有 的 一 次 数据 计算 机 会 ， 尽 可 能 全 面 、 准确 、 有 效 
地 从 数据 流 中 得 出 有 价值 的 信息 。 

3. 突 发 性 

在 大 数据 流 式 计算 环境 中 , 数据 的 产生 完全 由 数据 源 确定 , 由 于 不 同 的 数据 源 在 不 同时 空 
范围 内 的 状态 不 统一 且 发 生动 态 变化 , 导致 数据 流 的 速率 呈现 出 了 突 发 性 的 特征 。 前 一 时 刻 的 
数据 速率 和 后 一 时 刻 的 数据 速率 可 能 会 有 巨大 的 差异 , 这 就 需要 系统 具有 很 好 的 可 伸缩 性 , 能 
够 动态 适应 不 确定 流入 的 数据 流 , 具有 很 强 的 系统 计算 能 力 和 大 数据 流量 动态 匹配 的 能 力 。 一 
方面 , 在 突 发 高 数据 速率 的 情况 下 , 保证 不 丢弃 数据 , 或 者 识别 并 选择 性 地 丢弃 部 分 不 重要 的 
数据 ， 另 一 方面 ， 在 低 数 据 速 率 的 情况 下 ， 保 证 不 会 太 久 或 过 多 地 占用 系统 资源 。 

4. 无 序 性 

在 大 数据 流 式 计算 环境 中 , 各 数据 流 之 间 、 同 一 数据 流 内 部 各 数据 元 素 之 间 是 无 序 的 : 一 
方面 ， 由 于 各 个 数据 源 之 间 是 相互 独立 的 ， 所 处 的 时 空 环境 也 不 尽 相 同 ， 因 此 无 法 保证 数据 流 
间 的 各 个 数据 元 素 的 相对 顺序 ; 另 一 方面 , 即使 是 同一 个 数据 流 , 由 于 时 间 和 环境 的 动态 变化 ， 
也 无 法 保证 重 放 数 据 流 和 之 前 数据 流 中 数据 元 素 顺序 的 一 致 性 .这 就 需要 系统 在 数据 计算 过 程 
中 具有 很 好 的 数据 分 析 和 发 现 规律 的 能 力 ,不 能 过 多 地 依赖 数据 流 间 的 内 在 逻辑 或 者 数据 流 内 
部 的 内 在 逻辑 。 
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5. 无 限 性 

在 大 数据 流 式 计算 中 , 数据 是 实时 产生 、 动 态 增加 的 ， 只 要 数据 源 处 于 活动 状态 ,数据 就 
会 一 直 产 生 和 持续 增加 下 去 。 可 以 说 , 潜在 的 数据 量 是 无 限 的 , 无 法 用 一 个 具体 确定 的 数据 实 
现 对 其 进行 量化 ， 需 要 系统 具有 很 好 的 稳定 性 ， 保 证 系统 长 期 而 稳定 地 运行 。 


3.3.3 流 式 计算 关键 技术 


针对 具有 实时 性 、 易 失 性 、 突 发 性 、 无 序 性 、 无 限 性 等 特征 的 流 式 大 数据 ， 理 想 的 大 数据 
流 式 计算 系统 应 该 表现 出 低 延 迟 、 高 吞吐 、 持 续 稳定 运行 和 弹性 可 伸缩 等 特性 ， 这 其 中 离 不 开 
系统 架构 、 数 据 传输 、 编 程 接口 、 高 可 用 技术 等 关键 技术 的 合理 规划 和 良好 设计 。 


1. 系统 架构 


系统 架构 是 系统 中 各 子 系统 间 的 组 合 方式 , 属于 大 数据 计算 所 共有 的 关键 技术 。 当 前 , 大 
数据 流 式 计算 系统 采用 的 系统 架构 可 以 分 为 无 中 心 节点 的 对 称 式 系统 架构 (如 S4、Puma 等 系 
统 ) 和 有 中 心 节点 的 主 从 式 架构 (如 Storm 系统 ) 。 对 称 式 系统 架构 如 图 3-6 的 左 图 所 示 ， 系 
统 中 各 个 节点 的 功能 是 相同 的 ， 具有 良好 的 可 伸缩 性 。 但 由 于 不 存在 中 心 节点 ， 在 资源 调度 、 
系统 容错 、 负 载 均衡 等 方面 需要 通过 分 布 式 协议 实现 。 例 如 ，S4 通过 ZooKeeper 实现 系统 容 
错 、 负 载 均衡 等 功能 。 





图 3-6 对称 式 架构 ( 左 图 ) 和 主 从 式 架构 〈 右 图 ) 


主 从 式 系统 架构 如 图 3-6 的 右 图 所 示 ， 系 统 存在 一 个 主 节点 和 多 个 从 节点 ， 主 节点 负责 系 
统 资源 的 管理 和 任务 的 协调 ， 并 完成 系统 容错 、 负 载 均衡 等 方面 的 工作 ; 从 节点 负责 接收 来 自 
主 节点 的 任务 ， 并 在 计算 完成 后 进行 反馈 。 各 个 从 节点 间 没 有 数据 往来 ,整个 系统 的 运行 完全 
依赖 于 主 节 点 控制 。 

2. 数据 传输 

数据 传输 是 指 完成 有 向 任务 图 到 物理 计算 节点 的 部 署 之 后 ,各 个 计算 节点 之 间 的 数据 传输 
方式 。 在 大 数据 流 式 计算 环境 中 , 为 了 实现 高 吞吐 和 低 延 迟 ， 需 要 更 加 系统 地 优化 有 向 任务 图 
以 及 有 向 任务 图 到 物理 计算 节点 的 映射 方式 。 在 大 数据 流 式 计 算 环境 中 , 数据 的 传输 方式 分 为 
主动 推送 方式 (基于 push 方式 ) 和 被 动 拉 取 方 式 (基于 pull 方式 ) 。 

主动 推送 方式 是 在 上 游 节点 产生 或 计算 完 数据 后 , 主动 将 数据 发 送 到 相应 的 下 游 节点 , 其 
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本 质 是 让 相关 数据 主动 寻找 下 游 的 计算 节点 , 当下 游 节 点 报告 发 生 故障 或 负载 过 重 时 , 将 后 续 
数据 流 推送 到 其 他 相应 节点 。 主动 推送 方式 的 优势 在 于 数据 计算 的 主动 性 和 及 时 性 , 但 由 于 数 
据 是 主动 推送 到 下 游 节 点 的 , 往往 不 会 过 多 地 考虑 下 游 节 点 的 负载 状态 、 工 作 状态 等 因素 ,可 
能 会 导致 下 游 部 分 节点 负载 不 够 均衡 。 

被 动 拉 取 方式 是 只 有 下 游 节 点 显 式 进行 数据 请 求 ， 上 游 节点 才 会 将 数据 传输 到 下 游 节 点 ， 
其 本 质 是 让 相关 数据 被 动 地 传输 到 下 游 计算 节点 .被动 拉 取 方式 的 优势 在 于 下 游 节 点 可 以 根据 
自身 的 负载 状态 、 工 作 状 态 适 时 地 进行 数据 请 求 ,但 上 游 节点 的 数据 可 能 未 必得 到 及 时 的 计算 。 

大 数据 流 式 计算 的 实时 性 要 求 较 高 , 数据 需要 得 到 及 时 处 理 , 往往 选择 主动 推送 的 数据 传 
输 方式 。 当 然 ， 主 动 推 送 方式 和 被 动 拉 取 方 式 不 是 完全 对 立 的 ,也 可 以 将 两 者 进行 融合 ， 从 而 
在 一 定 程度 上 实现 更 好 的 效果 。 


3. 编程 接口 


编程 接口 用 于 方便 用 户 根据 流 式 计 算 的 任务 特征 ,通过 有 向 任务 图 来 描述 任务 内 在 逻辑 和 
依赖 关系 ， 并 编程 实现 任务 图 中 各 节点 的 处 理 功 能 。 用 户 策略 的 定制 、 业 务 流程 的 描述 和 具体 
应 用 的 实现 需要 通过 大 数据 流 式 计算 系统 提供 的 应 用 编程 接口 。 良 好 的 应 用 编程 接口 可 以 方便 
用 户 实现 业务 逻辑 ， 减 少 编程 工作 量 ， 并 降低 系统 功能 的 实现 门槛 。 

当前 ， 大 多 数 开源 大 数据 流 式 计算 系统 都 提供 了 类 似 于 MapReduce 的 用 户 编程 接口 。 例 
lil, Storm 提供 Spout 和 Bolt 应 用 编程 接口 ， 用 户 只 需要 定制 Spout 和 Bolt 的 功能 ， 并 规定 数 
据 流 在 各 个 Bolt 间 的 内 在 流向 ， 明 确 数据 流 的 有 向 无 环 图 ， 即 可 满足 对 流 式 大 数据 的 高 效 实 
时 计算 。 也 有 部 分 大 数据 流 式 计算 系统 为 用 户 提供 了 类 SQL 的 应 用 编程 接口 ， 并 给 出 了 相应 
的 组 件 ， 便 于 应 用 功能 的 实现 。 


4. 高 可 用 技术 


大 数据 批量 计算 将 数据 事先 存储 到 持久 设备 上 , 节点 失效 后 容易 实现 数据 重 放 。 而 大 数据 
流 式 计算 对 数据 不 进行 持久 化 存储 ， 因 此 批量 计算 中 的 高 可 用 技术 不 完全 适用 于 流 式 计算 环 
境 。 我 们 需要 根据 流 式 计算 的 新 特征 及 其 新 的 高 可 用 要 求 有 针对 性 地 研究 更 加 轻 量 、 高 效 的 高 
可 用 技术 和 方法 。 大 数据 流 式 计算 系统 的 “高 可 用 性 ”是 通过 状态 备份 和 故障 恢复 策略 实现 的 。 
当 故 障 发 生 后 ， 系 统 根据 预先 定义 的 策略 进行 数据 的 重 放 和 恢复 。 按 照 实 现 策略 ， 可 以 细 分 为 
被 动 等 待 (passive standby) 、 主 动 等 待 (active standby) 和 上 游 备份 Cupstream backup) 3 种 。 

被 动 等 待 策略 如 图 3-7 左 图 所 示 ， 主 节点 进行 数据 计算 ， 副 本 节点 B' 处 于 待命 状态 ， 
系统 会 定期 地 将 主 节点 B 上 最 新 的 状态 备份 到 副本 节点 B' 上 。 出 现 故 障 时 ， 系 统 从 备份 数据 
中 进行 状态 恢复 。 被 动 等 待 策略 支持 数据 负载 较 高 、 吞吐 量 较 大 的 场景 , 但 故障 恢复 时 间 较 长 ， 
可 以 通过 对 备份 数据 的 分 布 式 存储 缩短 恢复 时 间 。 该 方式 更 适合 精确 式 数据 的 恢复 , 可 以 很 好 
地 支持 不 确定 性 的 计算 应 用 ， 在 当前 流 式 数据 计算 中 应 用 得 最 为 广泛 。 

主动 等 待 策略 如 图 3-7 右 图 所 示 ， 系 统 在 为 主 节点 B 传输 数据 的 同时 ， 也 为 副本 节点 B 
传输 一 份 数据 副本 ， 以 主 节点 B 为 主 进行 数据 计算 ， 当 主 节点 B 出 现 故障 时 ， 副 本 节点 B' 完 
全 接管 主 节点 B 的 工作 。 主 副 节点 需要 分 配 同样 的 系统 资源 。 这 种 方式 故障 恢复 时 间 最 短 ， 
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但 数据 吞吐 量 较 小 ， 也 浪费 了 较 多 的 系统 资源 。 在 广域网 环境 中 ， 系 统 负载 往往 不 是 过 大 时 ， 
主动 等 待 策略 是 一 个 比较 好 的 选择 ， 可 以 在 较 短 的 时 间 内 实现 系统 恢复 。 
LACK. 
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图 3-7 被动 等 待 策略 ER 和 主动 等 待 策略 〈 右 图 ) 


上 游 备份 策略 如 图 3-8 所 示 , 每 个 主 节点 均 记录 其 自身 的 状态 和 输出 数据 到 日 志文 件 ， 当 
某 个 主 节点 B 出 现 故 障 后 ， 上 游 主 节点 会 重 放 日 志文 件 中 的 数据 到 相应 的 副本 节点 中 ， 进 行 
数据 的 重新 计算 。 上 游 备份 策略 所 占用 的 系统 资源 最 小 ， 在 无 故障 期 间 ， 由 于 副本 节点 BUR 
持 空闲 状态 , 数据 的 执行 效率 很 高 。 但 由 于 其 需要 较 长 的 时 间 恢 复 状态 的 重 构 ， 故 障 的 恢复 时 
间 往往 较 长 。 当 需要 恢复 时 间 窗 口 为 30 分 钟 的 聚 类 计算 时 , 就 需要 重 放 该 30 分 钟 内 的 所 有 元 
组 。 可 见 ， 对 于 系统 资源 比较 稀缺 、 算 子 状态 较 少 的 情况 ， 上 游 备份 策略 是 一 个 比较 好 的 选择 
方案 。 


(a) (bi 
图 3-8 上 游 备份 策略 
此 外 ， 大 数据 流 式 计算 系统 也 离 不 开 其 他 关键 技术 的 支持 ， 比 如 负载 均衡 策略 。 实 现 对 系统 


中 的 任务 动态 、 合 理 地 分 配 ， 动 态 适 应 系统 负载 情况 ， 保 证 系统 中 的 任务 均衡 和 稳定 地 运行 。 数 
据 在 任务 拓扑 中 的 路 由 策略 促进 系统 中 负载 均衡 策略 的 高 效 实现 、 数 据 的 合理 流动 及 快速 处 理 。 





可 .入 ”大 数据 技术 


对 于 普通 人 来 说 ,大 数据 离 我 们 的 生活 很 远 , 但 它 的 威力 已 无 所 不 在 : 信用 卡 公司 追踪 客 
户 信 息 ， 能 迅速 发 现 资金 异动 ， 并 向 持 卡 人 发 出 警示 ; 能 源 公司 利用 气象 数据 分 析 ， 可 以 轻松 
选 定安 装 风 轮机 的 理想 地 点 ; 瑞典 首都 斯 德 哥 尔 摩 使 用 运算 程序 管理 交通 , 令 市 区 拥堵 时 间 缩 
短 一 半 …… 这 些 都 与 大 数据 有 着 千 丝 万 缕 的 关系 。 牛 津 大 学 教授 维克托 。 迈 尔 - 舍 恩 伯 格 在 其 
新 书 《大 数据 时 代 》 中 说 ， 这 是 一 场 “ 革 命 ”， 将 对 各 行 各 业 带 来 深刻 影响 ， 甚 至 改变 我 们 的 
思维 方式 。 如 今 ， 信 息 每 天 都 在 以 爆炸 式 的 速度 增长 ， 其 复杂 性 也 越 来 越 高 ， 当 人 类 的 认 知 能 
力 受到 传统 可 视 化 形式 的 限制 时 ,隐藏 在 大 数据 背后 的 价值 就 难以 发 挥 出 来 。 理解 大 数据 并 借 
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助 其 做 出 决策 ， 才 能 发 挥 它 的 巨大 价值 和 无 限 潜力 。 其 中 的 一 把 金 钥匙 就 是 大 数据 技术 。 

在 数据 内 容 足 够 丰富 、 数 据 量 足 够 大 的 前 提 下 ， 隐 含 于 大 数据 中 的 规律 、 特 征 就 能 被 识别 
出 来 。 通 过 创新 性 的 大 数据 分 析 方 法 实现 对 大 量 数据 快速 、 高 效 、 及 时 地 分 析 与 计算 ， 得 出 跨 
数据 间 的 、 隐 含 于 数据 中 的 规律 、 关 系 和 内 在 逻辑 ,帮助 用 户 理 清 事件 背后 的 原因 ,预测 发 展 
趋势 ， 获 取 新 价值 。 


e 可视化 分 析 


大 数据 分 析 的 使 用 者 有 大 数据 分 析 专 家 , 也 有 普通 用 户 , 但 是 二 者 对 于 大 数据 分 析 最 基本 
的 要 求 都 是 可 视 化 分 析 , 因为 可 视 化 分 析 能 够 直观 地 呈现 大 数据 的 特点 , 同时 能 够 非常 容易 地 
被 读者 所 接受 ， 就 如 同 看 图 说 话 一 样 简单 明了 。 

© 数据 挖 气 算 法 

大 数据 分 析 的 理论 核心 是 数据 挖掘 算法 。 各 种 数据 挖掘 的 算法 基于 不 同 的 数据 类 型 和 格式 
才能 更 加 科学 地 呈现 出 数据 本 身 具备 的 特点 ,也 正 是 因为 这 些 被 全 世界 统计 学 家 所 公认 的 各 种 
统计 方法 (可 以 称 为 真理 ) ， 才 能 深入 数据 内 部 ， 挖 掘 出 公认 的 价值 。 另 一 方面 ， 也 是 因为 有 
这 些 数据 挖掘 的 算法 ， 才 能 更 快速 地 处 理 大 数据 ， 如 果 一 个 算法 得 花费 好 几 年 才能 得 出 结论 ， 
那么 大 数据 的 价值 也 就 无 从 说 起 了 。 


e 预测 性 分 析 能 力 

大 数据 分 析 最 重要 的 应 用 领域 之 一 就 是 预测 性 分 析 ,， 从 大 数据 中 挖掘 出 特点 , 通过 科学 地 
建立 模型 ， 之 后 便 可 以 通过 模型 带 入 新 的 数据 ， 从 而 预测 未 来 的 数据 。 

e 语义 引擎 

大 数据 分 析 广 泛 应 用 于 网 络 数据 挖掘 , 可 以 从 用 户 的 搜索 关键 词 、 标 签 关键 词 或 其 他 输入 
语义 分 析 和 判断 用 户 的 需求 ， 从 而 实现 更 好 的 用 户 体 验 和 广告 匹配 。 

@ 数据 质量 和 数据 管理 

大 数据 分 析 离 不 开 数 据 质量 和 数据 管理 , 高 质量 的 数据 和 有 效 的 数据 管理 , 无 论 是 在 学 术 
研究 还 是 在 商业 应 用 领域 ， 都 能 够 保证 分 析 结果 的 真实 和 有 价值 。 


大 数据 分 析 的 基础 就 是 以 上 几 个 方面 , 当然 更 加 深入 大 数据 分 析 的 话 , 还 有 很 多 更 加 有 特 
点 的 、 更 加 深入 的 、 更 加 专业 的 大 数据 分 析 方 法 。 


3.4.1 数据 技术 的 演进 


大 数据 技术 可 以 分 成 两 个 大 的 层面 , 即 大 数据 平台 技术 与 大 数据 应 用 技术 。 要 使 用 大 数据 ， 
必须 先 有 计算 能 力 ， 大 数据 平台 技术 包括 数据 的 采集 、 存 储 、 流 转 、 加 工 所 需要 的 底层 技术 ， 
如 Hadoop 生态 圈 。 大 数据 应 用 技术 是 指 对 数据 进行 加 工 ， 把 数据 转化 成 商业 价值 的 技术 ， 如 
算法 ， 以 及 由 算法 衍生 出 来 的 模型 、 引 擎 、 接 口 、 产 品 等 。 这 些 数据 加 工 的 底层 平台 包括 平台 
层 的 工具 以 及 平台 上 运行 的 算法 ， 也 可 以 沉淀 到 一 个 大 数据 的 生态 市 场 中 ， 避 免 重复 的 研发 ， 
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大 大 地 提高 了 大 数据 的 处 理 效率 。 

大 数据 首先 需要 有 数据 , 数据 首先 要 解决 采集 与 存储 的 问题 。 数据 采集 与 存储 技术 随 着 数 
据 量 的 爆发 与 大 数据 业务 的 飞速 发 展 ， 也 在 不 停 地 进化 。 在 大 数据 的 早期 ， 或 者 很 多 企业 的 发 
展 初期 ， 只 有 关系 型 数据 库 用 来 存储 核心 业务 数据 ， 即 使 是 数据 仓库 ， 也 是 集中 型 OLAP 关 
系 型 数据 库 。 比 如 很 多 企业 ， 包 括 早期 的 淘宝 ， 就 建立 了 很 大 的 Oracle RAC 作为 数据 仓库 ， 
按 当时 的 规模 来 说 ， 可 以 处 理 10TB 以 下 的 数据 规模 。 一 旦 出 现 独立 的 数据 仓库 ， 就 会 涉及 
ETL， 如 数据 抽取 、 数 据 清洗 、 数 据 校 验 、 数 据 导 入 ， 甚 至 是 数据 安全 脱 敏 。 如 果 数 据 来 源 仅 
仅 是 业务 数据 库 ，ETL 还 不 会 很 复杂 ， 如 果 数 据 的 来 源 是 多 方 的 ， 比 如 日 志 数据 、App 数据 、 
爬虫 数据 、 购 买 的 数据 、 整 合 的 数据 等 ，ETL 就 会 变 得 很 复杂 ， 数 据 清 洗 与 校 验 的 任务 就 会 
变 得 很 重要 。 这 时 的 ETL 必须 配合 数据 标准 来 实施 ， 如 果 没 有 数据 标准 的 ETL， 可 能 会 导致 
数据 仓库 中 的 数据 都 是 不 准确 的 ,错误 的 大 数据 会 导致 上 层 数据 应 用 和 数据 产品 的 结果 都 是 错 
误 的 。 错 误 的 大 数据 结论 还 不 如 没有 大 数据 。 由 此 可 见 ， 数 据 标准 与 ETL 中 的 数据 清洗 、 数 
据 校 验 是 非常 重要 的 。 

随 着 数据 的 来 源 变 多 , 数据 的 使 用 者 变 多 , 整个 大 数据 流转 就 变 成 了 一 个 非常 复杂 的 网 状 
拓扑 结构 。 在 这 个 网 络 中 ， 每 个 人 都 在 导入 数据 、 清 洗 数据 ， 同 时 每 个 人 也 都 在 使 用 数据 ， 但 
是 谁 都 不 相信 对 方 导 入 和 清洗 的 数据 ， 就 会 导致 重复 数据 越 来 越 多 ， 数 据 任务 越 来 越 多 ， 任 务 
的 关系 也 越 来 越 复杂 。 要 解决 这 样 的 问题 ， 必 须 引 入 数据 管理 ， 也 就 是 针对 大 数据 的 管理 ， 比 
如 元 数据 标准 、 公 共 数 据 服务 层 〈 可 信 数 据 层 ) 、 数 据 使 用 信息 披露 等 。 

随 着 数据 量 的 持续 增长 ， 集 中 式 的 关系 型 OLAP 数据 仓库 已 经 不 能 解决 企业 的 问题 ， 这 
个 时 候 就 出 现 了 基于 MPP 的 专业 级 数据 仓库 处 理 软件 ， 如 Greenplum。Greenplum 采用 MPP 
方式 处 理 数据 , 可 以 处 理 的 数据 更 多 更 快 , 但 是 本 质 上 还 是 数据 库 的 技术 。 Greenplum 支持 100 
台 机 器 左右 的 规模 ， 可 以 处 理 拍 字 节 CPBO 级 别 的 数据 量 。Greenplum 的 产品 是 基于 流行 的 
PostgreSQL 开发 的 ， 几 乎 所 有 的 PostgreSQL 客户 端 工具 及 PostgreSQL 应 用 都 能 运行 在 
Greenplum 平台 上 。 

随 着 数据 量 的 持续 增加 ， 比 如 每 天 需要 处 理 100PB 以 上 的 数据 ， 每 天 有 100 万 以 上 的 大 
数据 任务 ， 使 用 以 上 解决 方案 都 没有 办 法 解决 了 ， 这 个 时 候 就 出 现 了 一 些 更 大 的 基于 MR 分 
布 式 的 解决 方案 ， 如 大 数据 技术 生态 体系 中 的 Hadoop, Spark 和 Storm。 它 们 是 目前 最 重要 的 
三 大 分 布 式 计算 系统 ，Hadoop 常用 于 离线 的 、 复 杂 的 大 数据 处 理 ，Spark 常用 于 离线 的 、 快 速 
的 大 数据 处 理 ， 而 Storm 常用 于 在 线 的 、 实 时 的 大 数据 处 理 。 


3.4.2 分布 式 计算 系统 概述 


Hadoop 是 一 个 由 Apache 基金 会 所 开发 的 分 布 式 系统 基础 架构 。Hadoop 框架 最 核心 的 设 
计 是 : HDFS 和 MapReduce. HDFS 为 海量 的 数据 提供 了 存储 ， 而 MapReduce 为 海量 的 数据 
提供 了 计算 。Hadoop 作为 一 个 基础 框架 ， 上 面 也 可 以 承载 很 多 其 他 东西 ， 比 如 Hive， 不 想 用 
程序 语言 开发 MapReduce HJA, AZ SQL 的 人 可 以 使 用 Hive 离线 地 进行 数据 处 理 与 分 析 工 
作 。 比 如 HBase， 作 为 面向 列 的 数据 库 运 行 在 HDFS ŻE, HDFS 缺乏 随机 读 写 操作 ，HBase 
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正 是 为 此 而 出 现 的 ，HBase 是 一 个 分 布 式 的 、 面 向 列 的 开源 数据 库 。 

Spark 也 是 Apache 基金 会 的 开源 项 目 ， 它 由 加 州 大 学 伯克利 分 校 的 实验 室 开 发 ， 是 另 一 
种 重要 的 分 布 式 计算 系统 。Spark 与 Hadoop 最 大 的 不 同 点 在 于 , Hadoop 使 用 硬盘 来 存储 数据 ， 
而 Spark 使 用 内 存 来 存储 数据 ， 因 此 Spark 可 以 提供 超过 Hadoop 100 倍 的 运算 速度 。Spark 可 
以 通过 YARN ( 另 一 种 资源 协调 者 ) 在 Hadoop 集群 中 运行 , 但 是 现在 的 Spark 也 在 往生 态 走 ， 
希望 能 够 上 下 游 通 吃 ， 一 套 技术 栈 解决 大 家 多 种 需求 。 比 如 Spark SQL， 对 应 着 Hadoop Hive, 
Spark Streaming 对 应 着 Storm。 

Storm 是 Twitter 主推 的 分 布 式 计算 系统 ， 是 Apache 基金 会 的 孵化 项 目 。 它 在 Hadoop 的 
基础 上 提供 了 实时 运算 的 特性 ， 可 以 实时 地 处 理 大 数据 流 。 不 同 于 Hadoop 和 Spark, Storm 不 
进行 数据 的 收集 和 存储 工作 , 它 直 接 通过 网 络 实时 地 接收 数据 并 且 实 时 地 处 理 数据 ,然后 直接 
通过 网 络 实时 地 传 回 结果 。Storm 擅长 处 理 实时 流 式 数据 。 比 如 日 志 、 网 站 购物 的 点 击 流 是 源 
源 不 断 的 、 按 顺序 的 、 没 有 终结 的 ， 所 有 通过 Kafka 等 消息 队列 传 来 数据 后 ，Storm 就 开始 工 
作 。Storm 自己 不 收集 数据 也 不 存储 数据 ， 一 边 传 来 数据 ， 一 边 处 理 ， 一 边 输出 结果 。 

上 面 的 三 个 系统 只 是 大 规模 分 布 式 计算 底层 的 通用 框架 ， 通 常 也 用 计算 引擎 来 描述 它们 。 
除了 计算 引擎 外 ， 想 要 做 数据 的 加 工 应 用 ， 我 们 还 需要 一 些 平台 工具 ， 如 开发 IDE、 作 业 调 度 
系统 、 数 据 同步 工具 、BI 模块 、 数 据 管理 平台 、 监 控 报 警 等 ， 它 们 与 计算 引擎 一 起 构成 大 数 
据 的 基础 平台 。 在 这 个 平台 上 , 我 们 可 以 做 大 数据 的 加 工 应 用 ,开发 数据 应 用 产品 。 比 如 一 个 
餐厅 ， 为 了 做 中 餐 、 西 餐 、 日 料 、 西 班 牙 菜 ， 必 须 有 食材 (数据) ， 配 合 不 同 的 厨具 〈 大 数据 
底层 计算 引擎 ) ， 加 上 不 同 的 佐 料 (加 工 工具 ) ， 才 能 做 出 不 同类 型 的 菜系 。 但 是 为 了 接待 大 
批量 的 客人 ， 还 必须 配备 更 大 的 厨房 空间 、 更 强 的 厨具 、 更 多 的 厨师 (分布 式 ) 。 做 的 菜 到 底 
好 吃 不 好 吃 ， 这 又 得 看 厨师 的 水 平 ( 大 数据 加 工 应 用 能 力 〉。 














3.4.3 Hadoop 

Hadoop 由 Apache 基金 会 开发 。 它 受到 谷歌 开发 的 Map/Reduce 和 Google File System 
(GES) 的 启发 。 可 以 说 Hadoop 是 谷歌 的 Map/Reduce 和 Google File System 的 开源 简化 版 本 。 

Hadoop 是 一 个 分 布 式 系统 的 基础 架构 。Hadoop 提供 一 个 分 布 式 文件 系统 架构 (Hadoop 
Distributed File System, HDFS) . HDFS 有 着 高 容错 性 的 特点 ， 并 且 设 计 用 来 部 署 在 相对 低 成 
本 的 x86 服务 器 上 。 而 且 它 提 供 高 传输 率 来 访问 应 用 程序 的 数据 , 适合 有 着 超大 数据 集 的 应 用 
程序 。 

Hadoop 的 MapReduce 是 一 个 能 够 对 大 量 数据 进行 分 布 式 处 理 的 软件 开发 框架 , 是 一 个 能 
够 让 用 户 轻 松 架构 和 使 用 的 分 布 式 计算 平台 。 用户 可 以 轻松 地 在 Hadoop 上 开发 和 运行 处 理 海 
量 数据 的 应 用 程序 。 它 主要 有 以 下 几 个 优点 。 

@ ÈT. Hadoop 的 海量 存储 和 处 理 数据 的 能 力 极 强 ， 同 时 具备 高 可 靠 性 。 

e 高 扩展 性 。 Hadoop 采用 分 布 式 设计 ， 可 以 方便 地 扩展 到 数 以 千 计 的 节点 中 。 

€ Ax. Hadoop 能 够 在 节点 之 间 动 态 地 移动 数据 ， 并 保证 各 个 节点 的 动态 平衡 ， 因 

此 处 理 速度 非常 快 。 


VT 
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e ZAH. Hadoop 能 够 自动 保存 数据 的 多 个 副本 ， 并 且 能 够 自动 将 失败 的 任务 重新 
分 配 。 
e ”高 性 价 比 。 与 常见 的 大 数据 处 理 一 体 机 、 商 用 数据 仓库 等 数据 集 市 相 比 ，Hadoop 是 
开源 的 , 设备 通常 采用 高 性 价 比 的 x86 服务 器 , 项 目的 软 硬 件 成 本 因此 会 大 大 降低 。 
1. 拓扑 架构 
如 图 3-9 所 示 ，Hadoop 由 许多 元 素 构成 。 其 最 底层 是 HDFS， 用 于 存储 Hadoop 集群 中 
所 有 存储 节点 上 的 文件 。HDFS 的 上 一 层 是 MapReduce 分 布 式 计算 框架 ， 该 引擎 由 
JobTrackers 和 TaskTrackers 组 成 。HBase 利用 Hadoop HDFS 作为 其 文件 存储 系统 ， 利 用 
Hadoop MapReduce 来 处 理 HBase 中 的 海量 数据 ， 利 用 ZooKeeper 作为 协同 服务 。 





MapReduce 
layer 


= 路 -~ 








Multi-node cluster 





3-9 Hadoop 架构 


(1) HDFS 
在 Hadoop 中 ， 所 有 数据 都 被 存储 在 HDFS LE. ifj HDFS 由 一 个 管理 节点 (NameNode) 
和 IN 个 数据 节点 (DataNode) 组 成 ， 每 个 节点 均 为 一 台 普 通 的 x86 服务 器 。HDFS 在 使 用 上 
与 单机 的 文件 系统 很 类 似 ,一 样 可 以 建立 目录 , 创建 、 复 制 和 删除 文件 ， 查 看 文件 内 容 等 。 但 
底层 实现 是 把 文件 切割 成 Block (通常 为 64MB) ， 这 些 Block 分 散 存储 在 不 同 的 DataNode 
E, 每 个 Block 还 可 以 复制 数 份 存储 于 不 同 的 DataNode E, 达到 容错 元 余 的 目的 NameNode 
是 HDFS 的 核心 , 通过 维护 一 些 数据 结构 记录 每 个 文件 被 切割 成 多 少 个 Block, 以 及 这 些 Block 
可 以 从 哪些 DataNode 中 获得 、 各 个 DataNode 的 状态 等 重要 信息 。 
HDFS 可 以 保存 比 一 个 机 器 的 可 用 存储 空间 更 大 的 文件 , 这 是 因为 HDFS 是 一 套 具 备 可 扩 
展 能 力 的 存储 平台 , 能 够 将 数据 分 发 至 成 千 上 万 个 分 布 式 节 点 及 低 成 本 服务 器 之 上 , 并 让 这 些 





78 


硬件 设备 以 并 行 方式 共同 处 理 同一 任务 。 


(2) 分 布 式 计算 框架 (MapReduce) 

MapReduce 通过 把 对 数据 集 的 大 规模 操作 分 发 给 网 络 上 的 每 个 节点 实现 可 靠 性 。 
MapReduce 实现 了 大 规模 的 计算 : 应 用 程序 被 分 割 成 许多 小 部 分 ， 而 每 个 部 分 在 集群 中 的 节 
点 上 并 行 执行 〈 每 个 节点 处 理 自己 的 数据 ) 。 

总 之 ，Hadoop 是 一 种 分 布 式 系统 的 平台 ， 通 过 它 可 以 很 轻松 地 搭建 一 个 高 效 、 高 质量 的 
分 布 式 系统 。Hadoop 的 分 布 式 包括 两 部 分 : 一 个 是 分 布 式 文件 系统 HDFS; 另 一 个 是 分 布 式 
计算 框架 ,一 种 编程 模型 ,就 是 MapReduce, 两 者 缺 一 不 可 。 用 户 可 以 通过 MapReduce 在 Hadoop 
平台 上 进行 分 布 式 的 计算 编程 。 


(3) 基于 Hadoop 的 应 用 生态 系统 

Hadoop 框架 包括 Hadoop 内 核 、 MapReduce、HDFS 和 Hadoop YARN 等 。Hadoop 也 是 一 
个 生态 系统 , 在 这 里 面 有 很 多 组 件 . 除 了 HDFS 和 MapReduce 外 ,还 有 NoSQL 数据 库 的 HBase、 
数据 仓库 工具 Hive. Pig 工作 流 语言 、 机 器 学 习 算 法 库 Mahout、 在 分 布 式 系统 中 扮演 重要 角 
色 的 ZooKeeper、 内 存 计算 框架 的 Spark、 数 据 采 集 的 Flume 和 Kafka。 总 之 ,用 户 可 以 在 Hadoop 
平台 上 开发 和 部 署 任 何 大 数据 应 用 程序 。 

HBase 是 Hadoop Database， 是 一 个 高 可 靠 性 、 高 性 能 、 面 向 列 、 可 伸缩 的 分 布 式 存储 系 
统 , 利用 HBase 技术 可 在 高 性 价 比 的 x86 服务 器 上 搭建 起 大 规模 的 结构 化 存储 集群 。HBase 
是 Google Bigtable 的 开源 实现 , 类似 Google Bigtable 利用 GFS 作为 其 文件 存储 系统 ，HBase 
利用 Hadoop HDFS 作为 其 文件 存储 系统 ; 谷歌 运行 MapReduce 来 处 理 Bigtable 中 的 海量 数据 ， 
HBase 同样 利用 Hadoop MapReduce 来 处 理 HBase 中 的 海量 数据 ;Google Bigtable 利用 Chubby 
作为 协同 服务 ，HBase 利用 ZooKeeper 作为 对 应 。 

Hadoop 应 用 生态 系统 的 各 层 系统 中 , HBase 位 于 结构 化 存储 层 , Hadoop HDFS 为 HBase 
提供 了 高 可 靠 性 的 底层 存储 支持 ，Hadoop MapReduce 为 HBase 提供 了 高 性 能 的 计算 框架 ， 
ZooKeeper 为 HBase 提供 了 稳定 服务 和 Failover 机 制 。 

此 外 ，Pig 和 Hive 还 为 HBase 提供 了 高 层 语言 支持 ， 使 得 在 HBase 上 进行 数据 统计 处 理 
变 得 非常 简单 。Sqoop 则 为 HBase 提供 了 方便 的 RDBMS 数据 导入 功能 ， 使 得 传统 数据 库 数 
据 向 HBase 中 迁移 变 得 非常 方便 。 

2. 行业 应 用 

总 之 , 数据 处 理 模式 会 发 生变 化 , 不 再 是 传统 的 针对 每 个 事务 从 众多 源 系统 中 拉 数 据 , 而 
是 由 源 系统 将 数据 推 至 HDFS，ETL 引擎 处 理 数据 ， 然 后 保存 结果 。 结 果 可 以 将 来 用 Hadoop 
分 析 ， 也 可 以 提交 到 传统 报表 和 分 析 工 具 中 分 析 。 经 证 实 ， 使 用 Hadoop 存储 和 处 理 结构 化 
数据 可 以 减少 10 倍 的 成 本 ,并 可 以 提升 4 倍 处 理 速度 。 以 金融 行业 为 例 ， Hadoop 有 以 下 几 个 
方面 可 以 对 用 户 的 应 用 有 帮助 。 


CD 涉及 的 应 用 领域 : 内 容 管理 平台 。 海 量 低 价值 密度 的 数据 存储 ， 可 以 实现 像 结构 化 、 
半 结 构 化 、 非 结构 化 数据 存储 。 
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(2) 涉及 的 应 用 领域 : 风险 管理 、 反 洗钱 系统 等 。 利 用 Hadoop 做 海量 数据 的 查询 系统 或 者 
离线 的 查询 系统 。 比 如 用 户 交易 记录 的 查询 ， 甚 至 是 一 些 离线 分 析 都 可 以 在 Hadoop 上 完成 。 

GO 涉及 的 应 用 领域 : 用 户 行为 分 析 及 组 合式 推销 。 用 户 行为 分 析 与 复杂 事务 处 理 提 供 
相应 的 支撑 ， 比 如 基于 用 户 位 置 的 变化 进行 广告 投 送 ， 进 行 精准 广告 的 推送 ， 都 可 以 通过 
Hadoop 数据 库 的 海量 数据 分 析 功 能 来 完成 。 


3. 软件 厂商 


Hadoop 软件 发 布 版 的 主要 厂商 有 Cloudera 和 Hortonworks。Cloudera 是 被 广泛 采用 的 纯 
Hadoop 软件 发 布 厂商 , 其 核心 的 开源 产品 Cloudera Distribution 包括 Apache Hadoop (CDH) , 
被 许多 初期 采用 的 公司 广泛 使 用 , 也 在 基于 Hadoop 构建 的 云 /Saas 厂商 中 非常 流行 。 Cloudera 
和 很 多 硬件 大 型 IT 公司 结 成 了 强大 的 合作 伙伴 关系 。 

Hortonworks 为 Hadoop 生态 系统 提供 专业 服务 ，Yahoo 和 Benchmark Capital 在 2011 年 
6 月 合资 创建 了 Hortonworks。 除 了 进一步 开发 Apache Hadoop 的 开源 分 发 以 外 ，Hortonworks 
也 提供 Hadoop 专业 服务 ， 它 在 整个 Hadoop 产业 中 是 技术 领导 者 和 生态 环境 的 构建 者 。 最 近 
其 发 布 的 Hortonworks Data Platform 集成 了 纯粹 的 开源 Apache Hadoop 软件 。 


4. 成 功 案例 


Hadoop 尤其 适合 大 数据 的 分 析 与 挖掘 。 因 为 从 本 质 上 讲 ，Hadoop 提供 了 在 大 规模 服务 
器 集群 中 捕捉 、 组 织 、 搜 索 、 共 享 以 及 分 析 数 据 的 模式 ， 且 可 以 支持 多 种 数据 源 (结构 化 、 半 
结构 化 和 非 结构 化 ) ， 规 模 则 能 够 从 几 十 台 服 务 器 扩展 到 上 千 台 服务 器 。 

基于 Hadoop 的 应 用 目前 已 经 开始 遍地 开花 ， 尤 其 是 在 互联 网 领域 。Yahoo! 通 过 集群 运行 
Hadoop， 支 持 广告 系统 和 Web 搜索 的 研究 ，Facebook 借助 集群 运行 Hadoop， 支 持 其 数据 分 
析 和 机 器 学 习 ， 搜 索引 擎 公司 百度 则 使 用 Hadoop 进行 搜索 日 志 分 析 和 网 页 的 数据 挖掘 工作 ; 
淘宝 的 Hadoop 系统 用 于 存储 并 处 理 电子 商务 交易 的 相关 数据 。 

随 着 越 来 越 多 的 传统 企业 开始 关注 大 数据 的 价值 ，Hadoop 也 开始 在 传统 企业 的 商业 智能 
或 数据 分 析 系 统 中 扮演 重要 角色 。 相 比 传统 的 基于 数据 库 的 商业 智能 解决 方案 ，Hadoop 拥有 
无 以 比拟 的 灵活 性 优势 和 成 本 优势 。 

Hadoop 的 经 典 用 户 有 百度 、 新 浪 、 奇 虎 、 世 纪 佳缘 网 、 搜 狐 、 优 酷 、 赶 集 网 、 爱 奇 艺 视 
频 网 站 等 。 


3.4.4 Spark 


随 着 大 数据 的 发 展 , 人 们 对 大 数据 的 处 理 要 求 也 越 来 越 高 , 原 有 的 批 处 理 框 架 MapReduce 
适合 离线 计算 ， 却 无 法 满足 实时 性 要 求 较 高 的 业务 ， 如 实时 推荐 、 用 户 行为 分 析 等 。 因 此 ， 
Hadoop 生态 系统 又 发 展 出 以 Spark 为 代表 的 新 计算 框架 。 相 比 MapReduce, Spark 速度 快 , F 
发 简单 ， 并 且 能 够 同时 兼顾 批 处 理 和 实时 数据 分 析 。 

Apache Spark 是 加 州 大 学 伯克利 分 校 的 AMPLabs 开发 的 开源 分 布 式 轻 量 级 通用 计算 框 
架 ,于 2014 年 2 月 成 为 Apache 的 项 级 项 目 。 由 于 Spark. 基于 内 存 设 计 , 使 得 它 拥 有 比 Hadoop 
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更 高 的 性 能 , 并 且 对 多 语言 (Scala、 Java, Python) HES EF o Spark 有 点 类 似 Hadoop MapReduce 
HEAR. Spark 拥有 Hadoop MapReduce 所 具有 的 优点 ， 但 不 同 于 MapReduce 的 是 ，Job 中 间 输 
出 的 结果 可 以 保存 在 内 存 中 ， 从 而 不 再 需要 读 写 HDFS (MapReduce 的 中 间 结 果 要 放 在 文件 系 
统 上 ) ， 因 此 ， 在 性 能 上 ，Spark E MapReduce 框架 快 100 倍 左右 ， 排 序 100TB 的 数据 只 需 
要 20 分 钟 左右 。 正 是 因为 Spark 主要 在 内 存 中 执行 ， 所 以 Spark 对 内 存 的 要 求 非常 高 ， 一 个 
节点 通常 需要 配置 24GB 的 内 存 。 在 业界 ， 我 们 有 时 把 MapReduce 称 为 批 处 理 计 算 框架 ， 把 
Spark 称 为 实时 计算 框架 、 内 存 计算 框架 或 流 式 计算 框架 。 

Hadoop 使 用 数据 复制 来 实现 容错 性 (LO 高 )， 而 Spark 使 用 RDD (Resilient Distributed 
Datasets， 弹 性 分 布 式 数据 集 》 数据 存储 模型 来 实现 数据 的 容错 性 。RDD 是 只 读 的 、 分 区 记录 
的 集合 。 如 果 一 个 RDD 的 一 个 分 区 丢失 , RDD 含有 如 何 重建 这 个 分 区 的 相关 信息 。 这 就 避免 
了 使 用 数据 复制 来 保证 容错 性 的 要 求 ， 从 而 减少 了 对 磁盘 的 访问 。 通 过 RDD， 后 续 步骤 如 果 
需要 相同 数据 集 ， 就 不 必 重 新 计算 或 从 磁盘 加 载 ， 这 个 特性 使 得 Spark 非常 适合 流水 线 式 的 数 
据 处 理 。 

虽然 Spark 可 以 独立 于 Hadoop 运行 ， 但 是 Spark 还 是 需要 一 个 集群 管理 器 和 一 个 分 布 式 
存储 系统 。 对 于 集群 管理 ，Spark 支持 Hadoop YARN、Apache Mesos 和 Spark 原生 集群 。 对 
于 分 布 式 存储 ，Spark 可 以 使 用 HDFS、Cassandra、OpenStack Swift 和 Amazon S3. Spark 支 
TF Java, Python fil Scala (Scala 是 Spark 最 推荐 的 编程 语言 ，Spark 和 Scala 能 够 紧密 集成 ， 
Scala 程序 可 以 在 Spark 控制 台 上 执行 ) 。 应 该 说 ，Spark 紧密 集成 Hadoop 生态 系统 中 的 上 述 
工具 。Spark 可 以 与 Hadoop 上 的 常用 数据 格式 (如 Avro 和 Parquet) 进行 交互 , 能 读 写 HBase 
等 NoSQL 数据 库 , 它 的 流 处 理 组 件 Spark Streaming 能 连续 从 Flume 和 Kafka 之 类 的 系统 上 读 
取 数 据 ， 它 的 SQL 库 Spark SQL 能 和 Hive Metastore 交互 。 

Spark 可 用 来 构建 大 型 的 、 低 延迟 的 数据 分 析 应 用 程序 。 如 图 3-10 所 示 ，Spark 包含 的 库 
有 : Spark SQL. Spark Streaming、MLlib (用 于 机 器 学 习 ) 和 GraphX。 其 中 ，Spark SQL 和 
Spark Streaming 最 受 欢 迎 ， 大 概 60% 的 用 户 在 使 用 这 两 个 库 中 的 一 个 。 而 且 Spark 还 能 替代 
MapReduce 成 为 Hive 的 底层 执行 引擎 。 

















Apache Spark 


图 3-10 Spark 组件 


Spark 的 内 存 缓存 使 它 适合 进行 迭代 计算 。 机 器 学 习 算法 需要 多 次 遍历 训练 集 ， 可 以 将 训 
练 集 缓存 在 内 存 里 。 在 对 数据 集 进 行 探索 时 , 数据 科学 家 可 以 在 运行 查询 的 时 候 将 数据 集 放 在 
内 存 中 ， 这 样 就 节省 了 访问 磁盘 的 开销 。 

虽然 Spark 目前 被 广泛 认为 是 下 一 代 Hadoop， 但 是 Spark 本 身 的 复杂 性 也 困扰 着 开发 人 
员 。Spark 的 批 处 理 能 力 仍 然 比 不 过 MapReduce， 与 Spark SQL 和 Hive 的 SQL 功能 相 比 还 有 
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一 定 的 差距 ，Spark 的 统计 功能 与 RR 语言 相 比 还 没有 可 比 性 。 


3.45 Storm 系统 


Storm 是 Twitter 支持 开发 的 一 款 分 布 式 的 、 开 源 的 、 实 时 的 、 主 从 式 的 大 数据 流 式 计 算 
系统 ， 使 用 的 协议 为 Eclipse Public License 1.0， 其 核心 部 分 使 用 高 效 流 式 计算 的 函数 式 语 言 
Clojure 编写 ， 极 大 地 提高 了 系统 性 能 。 但 为 了 方便 用 户 使 用 ， 支 持 用 户 使 用 任意 编程 语言 
行 项 目的 开发 。 

1. 任务 拓扑 


任务 拓扑 (Task Topology) 是 Storm 的 逻辑 单元 ， 一 个 实时 应 用 的 计算 任务 将 被 打包 为 
任务 拓扑 后 发 布 , 任务 拓扑 一 旦 提交 将 会 一 直 运 行 ,除非 显 式 地 去 中 止 。 一 个 任务 拓扑 是 由 一 
系列 Spout 和 Bolt 构成 的 有 向 无 环 图 ， 通 过 数据 流 (stream) 实现 Spout 和 Bolt 之 间 的 关联 ， 
如 图 3-11 左 图 所 示 。 其 中 ，Spout 负责 从 外 部 数据 源 不 间断 地 读 取 数 据 ， 并 以 元 组 (Tuple) 
的 形式 发 送 给 相应 的 Bolt. Bolt 负责 对 接收 到 的 数据 流 进行 计算 ， 实 现 过滤 、 聚 合 、 查 询 等 具 
体 功能 ， 可 以 级 联 ， 也 可 以 向 外 发 送 数据 流 。 

数据 流 是 Storm 对 数据 的 抽象 ， 它 是 时 间 上 无 穷 的 元 组 序列 。 如 图 3-11 右 图 所 示 ， 数 据 
流通 过 流 分 组 (stream grouping) 所 提供 的 不 同 策略 实现 在 任务 拓扑 中 的 流动 。 此 外 ， 为 了 确 
保 消 息 能 且 仅 能 被 计算 1 UK, Storm 还 提供 了 事务 任务 拓扑 。 


Bolt 


* Nd Bolt | 
WF 
t Vi 
~ Bolt Spou y 
X X 
Spout } > Bolt A pz 
X Bolt , 
> Bolt a 
! I 
` | 
(Spout + Bolt v / 
* Bolt 


图 3-11 Storm 任务 拓扑 ( 左 图 ) 和 Storm 数据 流 组 〈 右 图 ) 
2. 总 体 架构 
如 图 3-12 所 示 ，Storm 采用 主 从 系统 架构 ,在 一 个 Storm 系统 中 有 两 类 节点 〈 一 个 主 节 点 


Sos 


Nimbus、 多 个 从 节点 Supervisor) 及 3 种 运行 环境 (Master, Cluster 和 Slaves) 。 


82 





Master 





i 
i 
































3-12. Storm 系统 架构 


(1) 主 节点 Nimbus 运行 在 Master 环境 中 ， 是 无 状态 的 ， 负 责 全 局 的 资源 分 配 、 任 务 调 
度 、 状 态 监控 和 故障 检测 。 一 方面 ， 主 节点 Nimbus 接收 客户 端 提交 来 的 任务 ， 验 证 后 分 配 任 
务 到 从 节点 Supervisor 上 ， 同 时 把 该 任务 的 元 信息 写 入 ZooKeeper 目录 中 ; 另 一 方面 ， 主 节点 
Nimbus 需要 通过 ZooKeeper 实时 监控 任务 的 执行 情况 。 当 出 现 故 障 时 进行 故障 检测 ， 并 重启 
失败 的 从 节点 Supervisor 和 工作 进程 Worker。 

(2) 从 节点 Supervisor 运行 在 Slaves 环境 中 ， 也 是 无 状态 的 ， 负 责 监 听 并 接受 来 自主 节 
点 Nimbus 所 分 配 的 任务 ,并 启动 或 停止 自己 所 管理 的 工作 进程 Worker。 其 中 ,工作 进程 Worker 
负责 具体 任务 的 执行 。 一 个 完整 的 任务 拓扑 往往 由 分 布 在 多 个 从 节点 Supervisor 上 的 Worker 
进程 来 协调 执行 ， 每 个 Worker 都 执行 且 仅 执行 任务 拓扑 中 的 一 个 子 集 。 在 每 个 Worker 内 部 
会 有 多 个 Executor， 每 个 Executor 对 应 一 个 线程 。Task 负责 具体 数据 的 计算 ， 即 用 户 所 实现 
的 Spout/Blot 实例 。 每 个 Executor 会 对 应 一 个 或 多 个 Task， 因 此 系统 中 Executor 的 数量 总 是 
小 于 等 于 Task 的 数量 。 


ZooKeeper 是 一 个 针对 大 型 分 布 式 系统 的 可 靠 协调 服务 和 元 数据 存储 系统 。 通 过 配置 
ZooKeeper 集群 ,可 以 使 用 ZooKeeper 系统 所 提供 的 高 可 靠 性 服务 .Storm 系统 引入 ZooKeeper, 
极 大 地 简化 了 Nimbus. Supervisor. Worker 之 间 的 设计 ， 保 障 了 系统 的 稳定 性 。ZooKeeper 
在 Storm 系统 中 具体 实现 了 以 下 功能 : 


(D 存储 客户 端 提交 任务 拓扑 信息 、 任 务 分 配 信息 、 任 务 的 执行 状态 信息 等 ， 便 于 主 节点 
Nimbus 监控 任务 的 执行 情况 。 

Q) 存储 从 节点 Supervisor、 工 作 进 程 Worker 的 状态 和 心跳 信息 ， 便 于 主 节 点 Nimbus 监 
控 系 统 各 节点 的 运行 状态 。 

@ 存储 整个 集群 的 所 有 状态 信息 和 配置 信息 ， 便 于 主 节点 Nimbus 监控 ZooKeeper 集群 
的 状态 。 在 主 ZooKeeper 节点 挂 掉 后 , 可 以 重新 选取 一 个 节点 作为 主 ZooKeeper 节点 ， 并 进行 
恢复 。 
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3. 系统 特征 
Storm 系统 的 主要 特征 如 下 。 
(1) 简单 编程 模型 。 用 户 只 需 编 写 Spout 和 Bolt 部 分 的 实现 ， 因 此 极 大 地 降低 了 实时 大 
数据 流 式 计算 的 复杂 性 。 
(2) 支持 多 种 编程 语言 。 默 认 支 持 Clojure、Java、Ruby 和 Python， 也 可 以 通过 添加 相 
关 协 议 实现 对 新 增 语言 的 支持 。 


(3) 作业 级 容错 性 。 可 以 保证 每 个 数据 流 作业 被 完全 执行 。 
(4) 水 平 可 扩展 。 计 算 可 以 在 多 个 线程 、 进 程 和 服务 器 之 间 并 发 执行 。 
(5) 快速 消息 计算 。 通 过 ZeroMQ 作为 其 底层 消息 队列 ， 保 证 消息 能 够 得 到 快速 的 计算 。 


Storm 系统 存在 的 不 足 主要 包括 : 资源 分 配 没有 考虑 任务 拓扑 的 结构 特征 ， 无 法 适应 数据 
负载 的 动态 变化 ;采用 集中 式 的 作业 级 容错 机 制 ， 在 一 定 程度 上 限制 了 系统 的 可 扩展 性 。 


3.4.6 Kafka 系统 


Kafka 是 Linkedin 所 支持 的 一 款 开 源 的 、 分 布 式 的 、 高 吞吐 量 的 发 布 订阅 消息 系统 ， 可 以 
有 效 地 处 理 互联 网 中 活跃 的 流 式 数 据 ， 如 网 站 的 页 面 浏览 量 、 用 户 访问 频率 、 访问 统计 、 好 友 
动态 等 ， 开 发 语言 是 Scala， 可 以 使 用 Java 进行 编写 。Kafka 系统 在 设计 过 程 中 主要 考虑 了 以 
下 需求 特征 。 

(1) 消息 持久 化 是 一 种 常态 需求 。 

(2) 吞吐 量 是 系统 需要 满足 的 首要 目标 。 

(3) 消息 的 状态 作为 订阅 者 Consumer) 存储 信息 的 一 部 分 ， 在 订阅 者 服务 器 中 进行 
存储 。 

(4) 将 发 布 者 (producer) 、 代 理 (broker) 和 订阅 者 (consumer) 显 式 地 分 布 在 多 台 机 
器 上 ， 构 成 显 式 的 分 布 式 系统 。 


形成 了 以 下 关键 特性 。 


CD 在 磁盘 中 实现 消息 持久 化 的 时 间 复 杂 度 为 0(1)， 数 据 规模 可 以 达到 太 字 节 (TB) 
级 别 。 

(2) 实现 了 数据 的 高 吞吐 量 ， 可 以 满足 每 秒 数 十 万 条 消息 的 处 理 需求 。 

(3) 实现 了 在 服务 器 集群 中 进行 消息 的 分 片 和 序列 管理 。 

(4) 实现 了 对 Hadoop 系统 的 兼容 ， 可 以 将 数据 并 行 地 加 载 到 Hadoop 集群 中 。 

1. 系统 架构 

Katka 消息 系统 的 架构 是 由 发 布 者 、 代 理 和 订阅 者 共同 构成 的 显 式 分 布 式 架构 ， 它 们 分 别 
位 于 不 同 的 节点 上 ， 如 图 3-13 所 示 。 各 部 分 构成 一 个 完整 的 逻辑 组 ， 并 对 外 界 提 供 服务 ， 各 
部 分 间 通 过 消息 (message) 进行 数据 传输 。 其 中 ， 发 布 者 可 以 向 一 个 主题 Ctopic) 推送 相关 
消息 , 订阅 者 以 组 为 单位 可 以 关注 并 拉 取 自己 感 兴趣 的 消息 , 通过 ZooKeeper 实现 对 订阅 者 和 
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代理 的 全 局 状态 信息 的 管理 及 其 负载 均衡 的 实现 。 
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图 3-13 Kafka 系统 架构 

2. 数据 存储 

Kafka 消息 系统 通过 仅 进行 数据 追加 的 方式 实现 对 磁盘 数据 的 持久 化 保存 ， 实 现 了 对 
大 数据 的 稳定 存储 ， 并 有 效 地 提高 了 系统 的 计算 能 力 。 通 过 采用 Sendfile 系统 调用 方式 优 
化 了 网 络 传输 ， 提 高 了 系统 的 吞吐 量 。 即 使 对 于 普通 的 硬件 ，Kafka 消息 系统 也 可 以 支持 
每 秒 数 十 万 的 消息 处 理 能 力 。 此 外 ， 在 Kafka 消息 系统 中 ， 通 过 仅 保 存 订 阅 者 已 经 计算 数 
据 的 偏 量 信息 ， 一 方面 可 以 有 效 地 节省 数据 的 存储 空间 ， 另 一 方面 也 简化 了 系统 的 计算 方 
式 ， 方 便 系统 的 故障 恢复 。 

3. 消息 传输 

Kafka 消息 系统 采用 推送 、 拉 取 相 结合 的 方式 进行 消息 的 传输 。 其 中 ， 当 发 布 者 需要 传输 
消息 时 , 会 主动 地 推送 该 消息 到 相关 的 代理 节点 ; 当 订 阅 者 需要 访问 数据 时 ， 其 会 从 代理 节点 
进行 拉 取 。 通 常情 况 下 ， 订 阅 者 可 以 从 代理 节点 中 拉 取 自己 感 兴趣 的 主题 消息 。 

4. 负载 均衡 

在 Kafka 消息 系统 中 ， 发布 者 和 代理 节点 之 间 没 有 负载 均衡 机 制 ,但 可 以 通过 专用 的 第 4 
层 负载 均衡 器 在 Kafka 代理 上 实现 基于 TCP 连接 的 负载 均衡 的 调整 。 订 阅 者 和 代理 节点 之 间 
通过 Zookeeper 实现 负载 均衡 机 制 ， 在 Zookeeper 中 管理 全 部 活动 的 订阅 者 和 代理 节点 信息 。 
当 有 订阅 者 和 代理 节点 的 状态 发 生变 化 时 , 才 实 时 地 进行 系统 的 负载 均衡 的 调整 , 保障 整个 系 
统 处 于 一 个 良好 的 均衡 状态 。 

5. 存在 不 足 

Katka 系统 存在 的 不 足 之 处 主要 包括 : 只 支持 部 分 容错 ， 节 点 失效 转移 时 会 丢失 原 节点 内 
存 中 的 状态 信息 ; 代理 节点 没有 副本 机 制 保护 , 一 旦 代理 节点 出 现 故 障 , 该 代理 节点 中 的 数据 
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将 不 再 可 用 ; 代理 节点 不 保存 订阅 者 的 状态 ， 删 除 消息 时 无 法 判断 该 消息 是 否 已 被 阅读 。 


3.4.7 各 类 技术 平台 比较 


一 般 而 言 ， 批 量 计算 相关 的 大 数据 系统 ， 如 批量 处 理 系统 (如 MapReduce) 、 大 规模 并 
行 数据 库 等 , 在 数据 吞吐 量 方面 具有 明显 优势 , 但 在 系统 响应 时 间 方 面 往往 在 秒 级 以 上 。 而 当 
前 的 流 式 计算 相关 的 大 数据 系统 ， 如 流 式 处 理 系统 、 内 存 数据 库 、CEP 复杂 事件 处 理 ) 等 ， 
在 系统 响应 时 间 方面 虽然 维持 在 毫秒 级 的 水 平 ， 但 数据 吞吐 量 往往 在 吉 字 节 (GB) 级别 ， 远 
远 满足 不 了 大 数据 流 式 计算 系统 对 数据 吞吐 量 的 要 求 。 通 常情 况 下 ,一 个 理想 的 大 数据 流 式 计 
算 系 统 在 响应 时 间 方 面 应 维持 在 毫秒 级 的 水 平 ， 并 且 数 据 吞吐 量 应 该 提高 到 拍 字 节 (PB) 级 
别 及 以 上 水 平 。 

流 式 大 数据 作为 大 数据 的 一 种 重要 形态 , 在 商业 智能 、 市 场 营销 和 公共 服务 等 诸多 领域 有 
着 广泛 的 应 用 前 景 ， 并 已 在 金融 银行 业 、 互 联网 、 物 联网 等 场景 的 应 用 中 取得 了 显著 的 成 效 。 
但 流 式 大 数据 以 其 实时 性 、 无 序 性 、 无 限 性 、 易 失 性 、 突 发 性 等 显著 特征 ， 使 得 传统 的 先 存储 
后 计算 的 批量 数据 计算 理念 不 适用 于 大 数据 流 式 计算 的 环境 中 , 也 使 得 当前 诸多 数据 计算 系统 
无 法 更 好 地 适应 流 式 大 数据 在 系统 可 伸缩 性 、 容 错 、 状 态 一 致 性 、 负 和 载 均衡 、 数 据 吞 叶 量 等 方 
面 所 带 来 的 诸多 新 的 技术 挑战 。 


1. 可 伸缩 性 


在 大 数据 流 式 计算 环境 中 , 系统 的 可 伸缩 性 是 制约 大 数据 流 式 计算 系统 广泛 应 用 的 一 个 重 
要 因素 。Storm 和 Kafka 等 系统 没有 实现 对 系统 可 伸缩 性 的 良好 支持 : 一 方面 ， 流 式 数据 的 产 
生 速 率 在 高 峰 时 期 会 不 断 增 加 且 数 据 量 巨大 , 持续 时 间 往 往 很 长 , 因此 需要 大 数据 流 式 系统 具 
有 很 好 的 “可 伸 ” 的 特征 ， 可 以 实时 适应 数据 增长 的 需求 ， 实 现 对 系统 资源 进行 动态 调整 和 快 
速 部 署 ， 并 保证 整个 系统 的 稳定 性 ; 另 一 方面 ， 当 流 式 数 据 的 产生 速率 持续 减 小 时 ， 需 要 及 时 
回收 在 高 峰 时 期 所 分 配 的 但 目前 已 处 于 闲置 或 低 效 利用 的 资源 , 实现 整个 系统 “可 缩 ” 的 友好 
特征 ， 并 保障 对 用 户 是 透明 的 。 因 此， 系统 中 资源 动态 的 配置 、 高 效 的 组 织 、 合 理 的 布局 、 科 
学 的 架构 和 有 效 的 分 配 是 保障 整个 系统 可 伸缩 性 的 基础 ,同时 又 尽 可 能 地 减少 不 必要 的 资源 和 
能 源 的 浪费 。 

大 数据 流 式 计算 环境 中 的 可 伸缩 性 问题 的 解决 需要 实现 对 系统 架构 的 合理 布局 , 系统 资源 
的 有 序 组 织 、 高 效 管理 和 灵活 调度 。 在 保证 系统 完成 计算 的 前 提 下 ， 尽 量 不 要 太 久 、 太 多 地 占 
用 系统 资源 ， 通 过 虚拟 化 机 制 实现 软 、 硬 件 之 间 的 低 耦 合 ， 实 现 资源 的 在 线 迁移 ， 并 最 终 解决 
大 数据 流 式 计算 环境 中 的 可 伸缩 性 问题 。 

2. 系统 容错 

在 大 数据 流 式 计算 环境 中 , 系统 容错 机 制 是 进一步 改善 整个 系统 的 性 能 、 提 高 计算 结果 的 
满意 度 、 保 证 系统 可 靠 持续 运行 的 一 个 重要 措施 , 也 是 当前 大 多 数 大 数据 流 式 计 算 系统 所 缺失 
A). Katka 等 系统 实现 了 对 部 分 容错 的 支持 ，Storm 系统 实现 了 对 作业 级 容错 的 支持 。 大 数据 
流 式 计算 环境 对 容错 机 制 提出 了 新 的 挑战 ,一 方面 , 数据 流 是 实时 、 持 续 地 到 来 的 ， 呈 现 出 时 
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间 上 不 可 逆 的 特征 ， 一 旦 数据 流 流 过 ， 再 次 重 放 数据 流 的 成 本 是 很 大 的 ， 甚 至 是 不 现实 的 ， 由 
于 数据 流 所 呈现 出 的 持续 性 和 无 限 性 ,也 无 法 预测 未 来 流量 的 变化 趋势 ; 另 一 方面 , 在 流 式 大 
数据 的 计算 过 程 中 ， 大 部 分 “无 用 ”的 数据 将 被 直接 丢弃 ， 能 被 永久 保存 下 来 的 数据 量 是 极 少 
的 。 当 需要 进行 系统 容错 时 ， 其 中 不 可 避免 地 会 出 现 一 个 时 间 段 内 数据 不 完整 的 情况 。 再 则 ， 
需要 针对 不 同类 型 的 应 用 , 从 系统 层面 上 设计 符合 其 应 用 特征 的 数据 容错 级 别 和 容错 策略 , 避 
免 不 必 要 的 资源 浪费 及 应 用 需求 的 不 吻合 。 

大 数据 流 式 计算 环境 中 的 容错 策略 的 确定 ,需要 根据 具体 的 应 用 场景 进行 系统 的 设计 和 权 
衡 ,并 且 需 要 充分 考虑 到 流 式 大 数据 的 持续 性 、 无 限 性 、 不 可 恢复 性 等 关键 特征 。 但 是 ,没有 
任何 数据 丢失 的 容错 策略 也 未 必 是 最 佳 的 , 需要 综合 统筹 容错 级 别 和 资源 利用 、 维护 代价 等 要 
素 间 的 关系 。 但 在 对 系统 资源 占用 合理 、 对 系统 性 能 影响 可 接受 的 情况 下 ,容错 的 精度 越 高 必 
将 越 好 。 

3. 状态 一 致 性 


在 大 数据 流 式 计算 环境 中 ， 维 持 系统 中 各 节点 间 状 态 的 一 致 性 对 于 系统 的 稳定 高 效 运行 、 
故障 恢复 都 至 关 重 要 。 然 而 ， 当 前 多 数 系统 不 能 有 效 地 支持 系统 状态 的 一 致 性 ， 如 Storm 和 
Kafka 等 系统 尚 不 支持 维护 系统 状态 的 一 致 性 。 大 数据 流 式 计算 环境 对 状态 一 致 性 提出 了 新 的 
挑战 : 一 方面 ， 在 系统 实时 性 要 求 极 高 、 数 据 速率 动态 变化 的 环境 中 ， 维 护 哪 些 数据 的 状态 一 
致 性 ， 如 何 从 高 速 、 海 量 的 数据 流 中 识别 这 些 数据 是 一 个 巨大 的 挑战 ; 另 一 方面 ， 在 大 规模 分 
布 式 环 境 中 , 如 何 组 织 和 管理 实现 系统 状态 一 致 性 的 相关 数据 , 满足 系统 对 数据 的 高 效 组 织 和 
精准 管理 的 要 求 ， 也 是 一 个 巨大 的 挑战 。 

大 数据 流 式 计 算 环 境 中 的 状态 一 致 性 问题 的 解决 需要 从 系统 架构 的 设计 层面 上 着 手 。 存 在 
全 局 唯一 的 中 心 节点 的 主 从 式 架构 方案 无 疑 是 实现 系统 状态 一 致 性 的 最 佳 解决 方案 ,但 需要 有 
效 避 免 单 点 故障 问题 。 通 常情 况 下 ,在 大 数据 流 式 计算 环境 中 ,程序 和 数据 一 旦 启动 后 , 将 会 
常 驻 内 容 , 对 系统 的 资源 占用 也 往往 相对 稳定 。 因此, 单 点 故障 问题 在 大 数据 流 式 计算 环境 中 
并 没有 批量 计算 环境 中 那么 复杂 。 批 量 计算 环境 中 的 很 多 策略 将 具有 很 好 的 参考 和 借鉴 价值 。 


4. 负载 均衡 


在 大 数据 流 式 计算 环境 中 ,系统 的 负载 均衡 机 制 是 制约 系统 稳定 运行 、 高 吞吐 量 计算 、 快 
速 响应 的 一 个 关键 因素 。 然 而 ， 当 前 多 数 系统 不 能 有 效 地 支持 系统 的 负载 均衡 ， 如 Storm 系统 
不 支持 负载 均衡 机 制 ，Kafka 系统 实现 了 对 负载 均衡 机 制 的 部 分 支持 。 一 方面 ， 在 大 数据 流 式 
计算 环境 中 ,系统 的 数据 速率 具有 明显 的 突变 性 , 并且 持 续 时 间 往 往 无 法 有 效 预测 ， 这 就 导致 
在 传统 环境 中 具有 很 好 的 理论 和 实践 效果 的 负载 均衡 策略 在 大 数据 流 式 计算 环境 中 将 不 再 适 
H: 另 一 方面 当前 大 多 数 开源 的 大 数据 流 式 计算 系统 在 架构 的 设计 上 尚未 充分 地 、 全 面 地 考 
虑 整个 系统 的 负载 均衡 问题 。 在 实践 应 用 中 ， 相关 经 验 的 积累 又 相对 缺乏 ， 因此 , 给 大 数据 流 
式 计算 环境 中 负载 均衡 问题 的 研究 带 来 了 诸多 实践 中 的 困难 和 挑战 。 

大 数据 流 式 计算 环境 中 的 负载 均衡 问题 的 解决 需要 结合 具体 的 应 用 场景, 系统 地 分 析 和 总 
结 隐藏 在 大 数据 流 式 计算 中 的 数据 流 变化 的 基本 特征 和 内 在 规律 ,结合 传统 系统 负载 均衡 的 经 








87 


人 工 智能 与 大 数据 技术 导论 


验 


所 
量 


K 


， 根 据 实 践 检验 情况 ， 不 断 进行 相关 机 制 的 持续 优化 和 逐步 完善 。 

5. 数据 吞吐 量 

在 大 数据 流 式 计算 环境 中 , 数据 吞吐 量 呈 现 出 了 根本 性 的 增加 。 在 传统 的 流 式 数据 环境 中 ， 
处 理 的 数据 吞吐 量 往往 在 吉 字 节 (GB) 级 别 ， 这 满足 不 了 大 数据 流 式 计算 环境 对 数据 吞吐 
的 要 求 。 在 大 数据 流 式 计算 环境 中 ， 数 据 的 吞吐 量 往往 在 太 字 节 (TB) 级 别 以 上 ， 且 其 增 
的 趋势 是 显著 的 。 然 而 ， 当 前 流 式 数据 处 理 系统 〈 如 Storm) 均 无 法 满足 太 字 节 (TB) 级 别 


的 应 用 需求 。 


化 


大 数据 流 式 计算 环 境 中 的 数据 吞吐 量 问题 的 解决 ,一 方面 需要 从 硬件 的 角度 进行 系统 的 优 
， 设 计 出 更 符合 大 数据 流 式 计算 环境 的 硬件 产品 ,在 数据 的 计算 能 力 上 实现 大 幅 提升 另 一 


方面 ， 更 为 重要 的 是 ， 从 系统 架构 的 设计 中 进行 优化 和 提升 ， 设 计 出 更 加 符合 大 数据 流 式 计 算 
特征 的 数据 计算 逻辑 。 


3.5 ERA 


也 


企业 要 做 AI 和 大 数据 分 析 ， 首 先 要 考虑 数据 的 准备 ， 这 其 实 就 是 数据 平台 的 建设 。 有 人 
许 会 问 : 业务 跑 得 好 好 的 , 各 系统 稳定 运行 ,为 何 还 要 搭建 企业 的 数据 平台 ? 企业 一 般 在 什 


么 情况 下 需要 搭建 数据 平台 ， 从 而 实现 对 各 种 数据 进行 重新 架构 ? 


A 
a 


@ ”从 业务 的 视角 来 看 : 业务 系统 过 多 ,彼此 的 数据 没有 打通 。 这 种 情况 下 ， 涉 及 数据 分 
析 就 麻烦 了 ， 可 能 需要 分 析 人 员 从 多 个 系统 中 提取 数据 ， 再 进行 数据 整合 ,之 后 才能 
分 析 。 一 次 两 次 可 以 忍 , 天 天 干 这 个 能 忍 吗 ? 人 为 地 整合 出 错 率 高 怎么 办 ? 分析 不 及 
时 效率 低 要 不 要 处 理 ? 

© ”从 系统 的 视角 来 看 : 业务 系统 压力 大 , 但 很 不 巧 ,数据 分 析 又 是 一 项 比较 费 资源 的 任 
务 . 那么 自然 会 想到 ， 通 过 将 数据 抽取 出 来 ， 独 立 服 务 器 来 处 理 数据 查询 、 分 析 的 任 
务 ， 从 而 释放 业务 系统 的 压力 。 

€ ”从 数据 处 理性 能 的 视角 来 看 : 企业 越 做 越 大 ， 与 此 同时 ， 数 据 也 会 越 来 越 多 。 可 能 是 
历史 数据 的 积累 , 也 可 能 是 新 数据 内 容 的 加 入 。 当 原始 数据 平台 不 能 承受 更 大 数据 量 
的 处 理 时 ， 或 者 效率 已 经 十 分 低下 时 ， 重 新 构建 一 个 大 数据 处 理 平台 就 是 必需 的 了 。 


这 三 种 情况 有 时 并 非 独 立 的 , 往往 是 其 中 两 种 甚至 三 种 情况 同时 出 现 。 这 时 , 一 个 数据 平 
的 出 现 不 仅 可 以 承担 数据 分 析 的 压力 , 还 可 以 对 业务 数据 进行 整合 ,， 从 而 从 不 同 程度 上 提高 





数据 处 理 的 性 能 ， 基 于 数据 平台 实现 更 丰富 的 功能 需求 。 


AI 和 大 数据 分 析 的 成 功 需要 的 不 仅仅 是 原始 数据 ， 还 需要 好 的 且 高 质量 的 数据 。 更 准确 


的 说 法 应 该 是 ，AI 的 成 功 需要 那些 准备 好 的 数据 。 对 于 分 析 ， 如 果 进 来 的 是 垃圾 ， 那 么 出 去 
的 也 是 垃圾 ， 这 就 意味 着 ， 如 果 你 把 大 量 参差 不 齐 的 数据 放 到 分 析 解 决 方案 中 ， 你 将 会 得 到 不 


好 
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的 结果 。 所 以 ， 大 多 数 数据 科学 家 和 数据 分 析 师 花费 大 量 时 间 来 为 AI 准备 数据 。 


数据 平台 通过 打通 数据 通道 实现 数据 汇聚 、 资 源 共享 ,同时 提供 数据 的 存储 、 计 算 、 加 工 、 
分 析 等 基础 能 力 。 大 数据 时 代 的 到 来 ， 大 家 开始 将 数据 当成 资源 ， 当 作 资 产 ， 数 据 管理 的 意义 
也 越 来 越 大 。 大 数据 管理 平台 的 建设 需要 设计 以 下 5 个 因素 。 


© ”数据 集中 和 共享 。 企业 及 基础 数据 平台 是 公共 的 、 中 性 的 , 数据 一 定 要 做 到 集中 和 共 
享 ， 否 则 就 失去 了 它 的 意义 。 

日 ”数据 标准 统一 。 如 果 每 个 应 用 都 有 自己 的 一 套 标 准 ， 整 个 架构 会 越 来 越 乱 。 

© 数据 管理 策略 统一 。 方向 是 共性 的 数据 一 定 要 下 沉 , 个 性 的 数据 逐渐 上 浮 , 也 就 是 说 ， 
共性 数据 都 尽量 落 在 基础 数据 平台 上 ， 个 性 数据 可 以 逐渐 落 在 各 个 应 用 上 处 理 。 

日 ”减少 数据 复制 。 

日 ”长 期 和 短期 相 结合 。 一 个 完整 的 企业 级 基础 数据 平台 包含 几 个 部 分 ， 即 数据 存储 平台 
(包含 相应 的 数据 架构 、 数 据 存储 策略 以 及 应 用 切 分 点 等 ) 、 应 用 ( 包含 报表 、 数 据 
挖 气 、 系 统 应 用 等 ) 、 数 据 管控 ( 包含 质量 管理 办 法 ， 比 如 数据 标准 等 ) 、 数 据 交换 
采集 调度 平台 和 数据 处 理 ( 包含 实施 数据 区 、 大 数据 处 理 、 历 史 数 据 存储 等 ) 。 这 类 
混合 架构 既 要 考虑 结构 性 数据 的 处 理 方法 ,也 要 考虑 非 结构 化 数据 的 处 理 和 文本 等 的 
混合 运算 方法 。 这 个 结构 能 够 帮助 我 们 清晰 地 看 到 后 续 要 发 展 成 什么 样 , 我 们 不 一 定 
开始 就 要 完成 这 样 一 个 体系 , 但 是 可 以 考虑 好 这 些 相 应 的 数据 项 目 , 包括 以 后 扩展 的 
接口 。 








3.5.1 数据 存储 和 计算 


结构 化 、 半 结构 化 、 文 本 、 各 类 传感器 的 数据 ， 音 频 、 图 片 、 视 频 等 多 媒体 数据 混杂 ， 分 
别 存储 在 不 同 的 数据 库 、 不 同 的 地 域 中 。 如 何 处 理 这 些 数 据 ? 没有 一 个 实时 计算 的 数据 平台 几 
乎 是 很 难 实现 的 。 大 数据 时 代 的 业务 场景 是 多 元 化 的 ， 不 同 的 数据 产品 面向 的 场景 很 不 一 样 。 
围绕 这 些 多 媒体 为 存储 的 核心 对 象 来 构建 场景 ， 清晰 、 及 时 地 呈现 业务 ， 是 非常 重要 的 一 项 工 
作 。 

数据 平台 建设 、 部 署 对 数据 规范 化 定义 ， 实 现 数据 的 唯一 性 、 准 确 性 、 完 整 性 、 规 范 性 和 
实效 性 ,实现 数 据 的 共享 共用 ,解决 数据 层面 的 孤岛 问题 。 整合 企业 各 个 业务 系统 ， 形 成 数据 
平台 。 这 就 要 求 建立 的 数据 平台 能 够 整合 各 个 业务 系统 ， 从 物理 和 逻辑 上 将 数据 集中 起 来 , 同 
时 数据 平台 起 到 了 物理 隔离 生产 系统 、 减 轻 对 生产 系统 的 压力 、 提 升 效率 的 作用 。 数 据 平台 可 
以 分 成 以 下 几 类 。 


1. 常规 数据 仓库 


常规 数据 仓库 的 重点 在 于 数据 整合 , 同时 也 是 对 业务 逻辑 的 一 个 梳理 。 虽 然 也 可 以 打包 成 
saas《〈 多 维 数据 集 ) . cube (多维 数 据 库 ) 等 来 提升 数据 的 读 取 性 能 ， 但 是 数据 仓库 的 作用 更 
多 的 是 为 了 解决 企业 的 业务 问题 ， 而 不 仅仅 是 性 能 问题 。 常 规 数据 仓库 的 优点 如 下 。 


CD 方案 成 熟 , 关于 数据 仓库 的 架构 有 着 非常 广泛 的 应 用 ， 而 且 能 将 其 落地 的 人 也 不 少 。 
OD 实施 简单 ， 涉 及 的 技术 层面 主要 是 仓库 的 建 模 以 及 ETL 的 处 理 ， 很 多 软件 公司 
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具备 数据 仓库 的 实施 能 力 ， 实 施 难 度 的 大 小 更 多 地 取决 于 业务 逻辑 的 复杂 程度 ， 而 并 非 技 
术 上 的 实现 。 

G) 灵活 性 强 。 数 据 仓库 的 建设 是 透明 的 ， 如 果 需 要 ， 可 以 对 仓库 的 模型 、ETL 逻辑 进 
行 修改 ， 来 满足 变更 的 需求 。 同 时 ， 对 于 上 层 的 分 析 而 言 ， 通 过 SQL 对 仓库 数据 的 分 析 处 理 
具备 极 强 的 灵活 性 。 


常规 数据 仓库 的 缺点 如 下 。 


(1) 实施 周期 相对 比较 长 。 实 施 周期 的 长 与 短 取决 于 业务 逻辑 的 复杂 性 ， 时 间 花 在 业务 
逻辑 的 梳理 ， 并 非 技术 的 瓶颈 上 。 

(2) 数据 的 处 理 能 力 有 限 。 这 个 有 限 也 是 相对 的 ， 海 量 数据 的 处 理 肯定 不 行 ， 非 关系 型 
数据 的 处 理 也 不 行 ， 但 是 太 字 节 (TB) 以 下 级 别 数据 的 处 理 还 是 可 以 的 《也 取决 于 所 采用 的 
数据 库 系统 ) 。 对 于 这 个 量 级 的 数据 ， 相 当 一 部 分 企业 的 数据 其 实 是 很 难 超过 这 个 级 别 的 。 


实时 处 理 的 要 求 是 区 别 大 数据 应 用 和 传统 数据 仓库 技术 的 关键 差别 之 一 。 随 着 每 天 创建 的 
数据 量 爆炸 性 的 增长 ,就 数据 保存 来 说 ,传统 数据 库 能 改进 的 技术 并 不 大 ， 如 此 庞大 的 数据 量 
存储 就 是 传统 数据 库 所 面临 的 非常 严峻 的 问题 。 


2. MPP ( 大 规模 并 行 处 理 ) 架构 


传统 的 数据 库 模式 在 海量 数据 面前 显得 很 弱 。 造价 非常 昂贵 , 同时 技术 上 无 法 满足 高 性 能 
的 计算 ， 其 架构 难以 扩展 ， 在 独立 主机 的 CPU 计算 和 IO 吞吐 上 ， 都 没 办 法 满足 海量 数据 计 
算 的 需求 。 分 布 式 存储 和 分 布 式 计算 正 是 解决 这 一 问题 的 关键 ， 无 论 是 MapReduce 计算 框架 

(Hadoop) 还 是 MPP 计算 框架 ， 都 是 在 这 一 背景 下 产生 的 。 

Greenplum 是 基于 MPP 架构 的 ， 它 的 数据 库 引 擎 是 基于 PostgreSQL 的 ， 并 且 通 过 
Interconnnect 连接 实现 了 对 同一 个 集群 中 多 个 PostgreSQL 实例 的 高 效 协同 和 并 行 计算 。 同 时 ， 
基于 Greenplum 的 数据 平台 建设 可 以 实现 两 个 层面 的 处 理 : 一 个 是 对 数据 处 理性 能 的 提升 , H 
前 Greenplum 在 100TB 级 左右 的 数据 量 上 是 非常 轻松 的 ， 另 一 个 是 数据 仓库 可 以 搭建 在 
Greenplum 中 ， 这 一 层面 上 也 是 对 业务 逻辑 的 梳理 ， 对 公司 业务 数据 的 整合 。Greenplum 的 优 
点 如 下 。 


COD 海量 数据 的 支持 ， 存 在 大 量 成 熟 的 应 用 案例 。 

(2) 扩展 性 : 据说 可 线性 扩展 到 10 000 个 节点 ， 并 且 每 增加 一 个 节点 ， 查 询 、 加 载 性 能 
都 成 线性 增长 。 

G) 易 用 性 : 不 需要 复杂 的 调 优 和 需求， 并 行 处 理由 系统 自动 完成 。 依 然 是 SQL 作为 交互 
语言 ， 简 单 、 灵 活 、 强 大 。 

(4) 高 级 功能 : Greenplum 还 研发 了 很 多 高 级 数据 分 析 管 理 功能 ， 例 如 外 部 表 、 
Primary/Mirror 镜像 保护 机 制 、 行 / 列 混合 存储 等 。 

(5) 稳定 性 : Greenplum 原本 作为 一 个 纯 商 业 数据 产品 ， 具 有 很 长 的 历史 ， 其 稳定 性 比 
Hadoop 产品 更 加 有 保障 。Greenplum 有 非常 多 的 应 用 案例 ， 纳 斯 达 克 、 纽 约 证 券 交 易 所 、 平 安 
银行 、 建 设 银行 、 华 为 等 都 建立 了 基于 Greenplum 的 数据 平台 。 其 稳定 性 是 可 以 从 侧面 验证 的 。 
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Greenplum 的 缺点 如 下 。 


(1) 本 身 来 说 ， 它 的 定位 在 OLAP 领域 ， 不 擅长 OLTP 交易 系统 。 当 然 ， 我 们 搭建 的 数 
据 中 心 也 不 是 用 来 做 交易 系统 的 。 

(2) 成 本 ， 有 两 个 方面 的 考虑 ， 一 是 硬件 成 本 ，Greenplum 有 其 推荐 的 硬件 规格 ， 对 内 
存 、 网 卡 都 有 要 求 ， 二 是 实施 成 本 ， 这 里 主要 是 需要 人 ， 从 基本 的 Greenplum 的 安装 配置 到 
Greenplum 中 数据 仓库 的 构建 ， 都 需要 人 和 时 间 。 

GO 技术 门槛 ， 这 里 是 相对 于 数据 仓库 的 ，Greenplum 的 门槛 肯定 更 高 一 点 。 


3. Hadoop 分 布 式 系统 架构 


Hadoop 已 经 非常 火 了 ，Greenplum 的 开源 跟 它 也 是 脱 不 了 关系 的 。 它 有 着 高 可 靠 性 、 高 
扩展 性 、 高 效 性 、 高 容错 性 的 口碑 。 在 互联 网 领域 有 着 非常 广泛 的 运用 ， 雅 虎 、Facebook、 百 
度 、 淘 宝 、 京 东 等 都 在 使 用 Hadoop。Hadoop 生态 体系 非常 庞大 ， 各 公司 基于 Hadoop 所 实现 
的 也 不 仅 限 于 数据 平台 ， 还 包括 数据 分 析 、 机 器 学 习 、 数 据 挖掘 、 实 时 系统 等 。 

当 企业 数据 规模 达到 一 定 的 量 级 时 ，Hadoop 应 该 是 各 大 企业 的 首选 方案 。 到 达 这 样 一 个 
层次 的 时 候 ， 企 业 所 要 解决 的 不 仅 是 性 能 问题 ,还 包括 时 效 问题 、 更 复杂 的 分 析 挖掘 功能 的 实 
现 等。 非常 典型 的 实时 计算 体系 也 与 Hadoop 这 一 生态 体系 有 着 紧密 的 联系 ， 比 如 Spark. i 
些 年 来 , Hadoop 的 易 用 性 有 了 很 大 的 提升 , SQL-on-Hadoop 技术 大 量 涌现 , 包括 Hive. Impala, 
Spark SQL 等 。 尽 管 其 处 理 方式 不 同 ， 但 相 比 于 原始 的 MapReduce 模式 ， 无 论 是 性 能 还 是 易 
用 性 都 有 所 提高 。 因 此 ， 对 MPP 产品 的 市 场 产生 了 压力 。 

对 于 企业 构建 数据 平台 来 说 ，Hadoop 的 优势 与 劣势 非常 明显 : 优势 是 它 的 大 数据 处 理 能 
力 、 高 可 靠 性 、 高 容错 性 、 开 源 性 以 及 低 成 本 〈 处 理 同样 规模 的 数据 ， 换 其 他 方案 试 试 就 知道 
了 ) ;劣势 是 它 的 体系 复杂 ， 技 术 门 槛 较 高 〈 能 搞定 Hadoop 的 公司 规模 一 般 都 不 小 ) 。 

关于 Hadoop 的 优 缺 点 ,对 于 公司 的 数据 平台 选 型 来 说 ,影响 已 经 不 大 了 。 需 要 使 用 Hadoop 
的 时 候 ， 也 没什么 其 他 的 方案 可 选择 〈 要 么 太 贵 ， 要 么 不 行 ) ， 没 达到 这 个 数据 量 的 时 候 ， 也 
没 人 愿意 碰 它 。 总 之 ， 不 要 为 了 大 数据 而 大 数据 。 

Hadoop 生态 圈 提 供 海量 数据 的 存储 和 计算 平台 ， 包 括 以 下 几 种 。 


e ”结构 化 数据 : 海量 数据 的 查询 、 统 计 、 更 新 等 操作 。 
© FARLA: BH. RI. Word, PDF, PPT 等 文件 的 存储 和 查询 。 
© 半 结 构 化 数据 : 要 么 转换 为 结构 化 数据 存储 ， 要 么 按照 非 结 构 化 存储 。 


Hadoop 的 解决 方案 如 下 。 


e 存储 : HDFS. HBase. Hive +. 
e 并 行 计算 : MapReduce 技术 。 
€ ‘it: Storm. Spark. 


如 何 选择 基础 数据 平台 ? 我 们 至 少 要 从 以 下 几 个 方面 去 考虑 。 
CD 目的 : 从 业务 、 系 统 、 性 能 三 种 视角 去 考虑 ， 或 者 是 其 中 几 个 的 组 合 。 当 然 ， 要 明 
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确 数据 平台 建设 的 目的 ， 有 时 并 不 容易 ,初衷 与 讨论 后 确认 的 目标 或 许 是 不 一 致 的 。 比 如 ， 某 
企业 要 搭建 一 个 数据 平台 的 初衷 可 能 很 简单 , 只 是 为 了 减轻 业务 系统 的 压力 , 将 数据 拉 出 来 后 
再 分 析 ， 如 果 目 的 真 的 这 么 单纯 , 而 且 只 有 一 个 独立 的 系统 ,那么 直接 将 业务 系统 的 数据 库 复 
制 一 份 就 好 了 ,不 需要 建立 数据 平台 ; 如 果 是 多 系统 ， 选 型 一 些 商 业 数 据 产品 也 够 了 ,快速 建 
模 ， 直 接 用 工具 就 能 实现 数据 的 可 视 化 与 OLAP 分 析 。 但是， 既然 已 经 决定 要 将 数据 平台 独 
立 出 来 ,就 不 再 多 考虑 一 点 吗 ? 多 个 业务 系统 的 数据 不 趁机 梳理 整合 一 下 ? 当前 只 是 分 析 业 务 
数据 的 需求 ， 以 后 会 不 会 考虑 历史 数据 呢 ? 方案 能 否 支撑 明年 和 后 年 的 需求 ? 

(2) 数据 量 : 根据 公司 的 数据 规模 选择 合适 的 方案 。 

(3) 成 本 : 包括 时 间 成 本 和 金钱 成 本 。 但 是 这 里 有 一 个 问题 ， 很 多 企业 要 么 不 上 数据 平 
台 , 一 旦 有 了 这 样 的 计划 ,就 恨不得 马上 把 平台 搭建 出 来 并 用 起 来 ,不 肯 花 时 间 成 本 。 这 样 的 
情况 很 容易 考虑 欠缺 ， 也 容易 被 数据 实施 方 忽悠 。 


在 方案 选 型 时 , 一 个 常见 的 误区 是 忽略 业务 的 复杂 性 , 要 用 工具 来 解决 或 者 绕 开业 务 的 逻辑 。 
企业 选择 数据 平台 的 方案 有 着 不 同 的 原因 ,要 合理 地 选 型 ， 既 要 充分 地 考虑 搭建 数据 平台 的 目的 
也 要 对 各 种 方案 有 着 充分 的 认识 。 对 于 数据 层面 来 说 ， 还 是 倾向 于 一 些 灵活 性 很 强 的 方案 ， 因 为 
数据 中 心 对 于 企业 来 说 太 重 要 了 ， 更 希望 它 是 透明 的 ， 是 可 以 被 自己 完全 掌控 的 ， 这 样 才 有 能 
实现 对 数据 中 心 更 加 充分 的 利用 。 因 为 不 知道 未 来 需要 它 去 担任 一 个 什么 样 的 角色 。 








3.552 ”数据 质量 


当前 越 来 越 多 的 企业 认识 到 了 数据 的 重要 性 , 大 数据 平台 的 建设 如 雨后春笋 般 。 但 数据 是 
一 把 双 刃 剑 ， 它 给 企业 带 来 业务 价值 的 同时 ,也 是 组 织 最 大 的 风险 来 源 。 粳 糕 的 数据 质量 常常 
意味 着 糟糕 的 业务 决策 , 将 直接 导致 数据 统计 分 析 不 准确 、 监 管 业务 难 、 高 层 领导 难以 决策 等 
问题 ， 据 IBM 统计 : 


€ ”错误 或 不 完整 数据 导致 BI 和 CRM 系统 不 能 正常 发 挥 优势 甚至 失效 。 
© ”数据 分 析 员 每 天 有 30% 的 时 间 浪 费 在 了 辨别 数据 是 否 是 “ 坏 数据 ”上 。 
€ ”低劣 的 数据 质量 严重 降低 了 全 球 企业 的 年 收入 。 


可 见 数 据 质量 问题 已 经 严重 影响 了 企业 业务 的 正常 运营 。 在 企业 信息 化 初期 , 各 类 业务 系 
统 盗 意 生长 。 后 来 业务 需求 增长 , 需要 按照 统一 的 架构 和 标准 把 各 类 数据 集成 起 来 ， 这 个 阶段 
问题 纷纷 出 现 , 数据 不 一 致 、 不 完整 、 不 准确 等 各 种 问题 扑面 而 来 。 费 了 九 牛 二 虎 之 力 才 把 数 
据 融合 起 来 ， 如 果 因为 数据 质量 不 高 而 无 法 完成 数据 价值 的 挖掘 ， 那 就 太 可 惜 了 。 

大 数据 时 代数 据 集成 融合 的 需求 会 愈加 迫切 , 不 仅 要 融合 企业 内 部 的 数据 , 也 要 融合 外 部 
(互联 网 等 ) 数据 。 如 果 没 有 对 数据 质量 问题 建立 相应 的 管理 策略 和 技术 工具 ,那么 数据 质量 
问题 的 危害 会 更 加 严重 。 数 据 质量 问题 会 造成 “垃圾 进 ， 垃 圾 出 ”。 数 据 质量 不 好 造成 的 结果 
是 对 业务 的 分 析 不 但 起 不 到 好 的 效果 ,相反 还 有 误导 的 作用 。 很 多 人 可 能 在 纠结 , 数据 质量 问 
题 究竟 是 “业务 ”的 问题 还 是 “技术 ”的 问题 。 根 据 我 们 以 往 的 经 验 ， 造 成 数据 质量 问题 的 原 
因 主要 分 为 以 下 几 种 : 
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CD 数据 来 源 渠道 多 ， 责 任 不 明确 。 
QD 业务 需求 不 清晰 ， 数 据 填报 缺失 。 
(3) ETL 处 理 过 程 中 ， 业 务 部 门 变更 代码 导致 数据 加 工 出 错 ， 影 响 报表 的 生成 。 


(1) 和 (2) 都 是 业务 的 问题 ，〈3) 虽然 表面 上 看 是 技术 的 问题 ， 但 本 质 上 还 是 业务 的 
问题 。 因 此 ， 大 部 分 数据 质量 问题 主要 还 是 来 自 于 业务 。 很 多 企业 认识 不 到 数据 质量 问题 的 根 
本 原因 ， 只 从 技术 单方 面 来 解决 数据 问题 ,没有 形成 管理 机 制 ， 导 致 效果 大 打折 扣 。 在 走 过 弯 
路 之 后 ,很 多 企业 认识 到 了 这 一 点 , 开始 从 业务 着 手 解 决 数据 质量 问题 。 在 治理 数据 质量 问题 
时 ,采用 规划 顶层 设计 ,制定 统一 数据 架构 、 数 据 标准 ， 设 计数 据 质 量 的 管理 机 制 ， 建 立 相应 
的 组 织 架构 和 管理 制度 ， 采 用 分 类 处 理 的 方式 持续 提升 数据 质量 。 还 有 ， 通 过 增加 ETL 数据 
清洗 处 理 逻 辑 的 复杂 度 ， 提 高 ETL 处 理 的 准确 度 。 


1. Al 系统 本 身 的 数据 质量 


在 大 数据 时 代 , 信息 由 数据 构成 ,数据 是 信息 的 基础 ,数据 已 经 成 为 一 种 重要 资源 。 数 据 
质量 成 为 决定 资源 优 劣 的 一 个 重要 方面 。 随 着 大 数据 的 发 展 , 越 来 越 丰富 的 数据 给 数据 质量 的 
提升 带 来 了 新 的 挑战 和 困难 。 对 于 企业 而 言 ， 进 行 市 场 情 报 调研 、 客 户 关系 维护 、 财 务 报 表 展 
现 、 战 略 决策 支持 等 都 需要 进行 数据 的 搜集 、 分 析 、 知 识 发 现 ， 为 决策 者 提供 充足 且 准 确 的 情 
报 和 资料 。 对 于 政府 而 言 ,进行 社会 管理 和 公共 服务 影响 面 更 为 宽广 和 深远 , 政策 和 服务 能 否 
满足 社会 需要 ,是否 高 效 地 使 用 了 公共 资源 , 都 需要 数据 提供 支持 和 保障 ， 因 而 对 数据 的 需求 
显得 更 为 迫切 ， 对 数据 质量 的 要 求 也 更 为 苛刻 。 

数据 作为 AI 系统 的 重要 构成 部 分 ， 数 据 质量 问题 是 影响 AI 系统 运行 的 关键 因素 ， 直 接 
关系 到 AI 系统 建设 的 成 败 。 根 据 “ 垃 圾 进 ， 垃 圾 出 (garbage in, garbage out) ”的 原理 ， 为 
了 使 AI 建设 取得 预期 效果 ， 达 到 数据 决策 的 目标 ， 要 求 所 提供 的 数据 是 可 靠 的 ， 能 够 准确 反 
应 客观 事实 。 如 果 数 据 质 量 得 不 到 保证 ， 即 使 AI 分 析 工 具 再 先进 , 模型 再 合理 ,算法 再 优良 ， 
在 充满 “垃圾 ”的 数据 环境 中 也 只 能 得 到 毫 无 意义 的 垃圾 信息 。 系 统 运行 的 结果 、 做 出 的 分 析 
就 可 能 是 错误 的 ， 甚 至 影响 后 续 决 策 的 制定 和 实行 。 高 质量 的 数据 来 源 于 数据 收集 ， 是 数据 设 
计 以 及 数据 分 析 、 评 估 、 修 正 等 环节 的 强力 保证 。 因 此 ， 对 于 AI 而 言 ， 数 据 质量 管理 尤为 重 
要 , 这 就 需要 建立 一 个 有 效 的 数据 质量 管理 体系 , 尽 可 能 全 面 地 发 现 数据 存在 的 问题 并 分 析 原 
因 ， 以 推动 数据 质量 的 持续 改进 。 

2. 大 数据 环境 下 数据 质量 管理 面临 的 挑战 

随 着 移动 互联 网 、 云 计算 、 物 联网 的 快速 发 展 ， 数 据 的 生产 者 、 生 产 环节 都 在 急速 攀升 ， 
随 之 快速 产生 的 数据 呈 指 数 级 增长 。 在 信息 和 网 络 技术 飞速 发 展 的 今天 , 越 来 越 多 的 企业 业务 
和 社会 活动 实现 了 数字 化 。 全 球 最 大 的 零售 商 沃 尔 玛 ， 每 天 通过 分 布 在 世界 各 地 的 6000 多 家 
商店 向 全 球 客户 销售 超过 2.67 亿 件 商 品 ， 每 小 时 获得 2.5PB 的 交易 数据 。 而 物 联网 下 的 传 感 
数据 也 慢 慢 发 展 成 了 大 数据 的 主要 来 源 之 一 。 有 研究 估计 ， 到 2020 年 则 高 达 35.2ZB。 此 外 ， 
随 着 移动 互联 网 、Web 2.0 技术 和 电子 商务 技术 的 飞速 发 展 ， 大 量 的 多 媒体 内 容 在 呈 指 数 级 增 
长 的 数据 量 中 发 挥 着 重要 作用 。 大 数据 时 代 的 数据 与 传统 数据 呈现 出 了 重大 差别 , 直接 影响 到 
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数据 在 流转 环节 中 的 各 个 方面 ， 给 数据 存储 处 理 分 析 性 能 、 数 据 质量 保障 都 带 来 了 很 大 挑战 ， 
这 更 容易 产生 数据 质量 问题 。 


CD 在 数据 收集 方面 ， 大 数据 的 多 样 性 决定 了 数据 来 源 的 复杂 性 。 来 源 众多 、 结 构 各 异 、 
大 量 不 同 的 数据 源 之 间 存 在 着 冲突 、 不 一 致 或 相互 矛盾 的 现象 。 在 数据 获取 阶段 , 保证 数据 定 
义 的 完整 性 、 数 据 质量 的 可 靠 性 尤为 必要 。 

OD 由 于 规模 大 ， 大 数据 在 获取 、 存 储 、 传 输 和 计算 过 程 中 可 能 产生 更 多 错误 。 采 用 传 
统 数据 的 人 工 错误 检测 与 修复 或 简单 的 程序 匹配 处 理 远 远 处 理 不 了 大 数据 环境 下 的 数据 问题 。 

GO 由 于 高 速 性 , 数据 的 大 量 更 新 会 导致 过 时 数据 迅速 产生 ,也 更 易 产 生 不 一 致 数据 。 

(4) 由 于 发 展 迅 速 、 市 场 庞 大 、 厂 商 众多 、 直 接 产 生 的 数据 或 者 产品 产生 的 数据 标准 不 
完善 ， 使 得 数据 有 更 大 的 可 能 产生 不 一 致 和 冲突 。 

(5) 由 于 数据 生产 源头 激增 、 产 生 的 数据 来 源 众 多 、 结 构 各 异 ， 以 及 系统 更 新 、 升 级 加 
快 和 应 用 技术 更 新 换代 频繁 ， 使 得 不 同 的 数据 源 之 间 、 相 同 的 数据 源 之 间 都 可 能 存在 着 冲突 、 
不 一 致 或 相互 矛盾 的 现象 , 再 加 上 数据 收集 与 集成 往往 由 多 个 团队 协作 完成 , 增 大 了 数据 处 理 
过 程 中 产生 问题 数据 的 概率 。 


因此 , 我 们 需要 一 种 数据 质量 策略 ， 从 建立 数据 质量 评价 体系 、 落实 质量 信息 的 采集 分 析 
与 监控 、 建 立 持续 改进 的 工作 机 制 和 完善 元 数据 管理 4 个 方面 ， 多 方位 优化 改进 , 最终 形成 一 
套 完善 的 质量 管理 体系 ， 为 信息 系统 提供 高 质量 的 数据 支持 。 


3. 建立 数据 质量 管理 策略 和 评价 体系 


为 了 改进 和 提高 数据 质量 ， 必 须 从 产生 数据 的 源头 开始 抓 起 ， 从 管理 入 手 ， 对 数据 运行 的 
全 过 程 进行 监控 , 密切 关注 数据 质量 的 发 展 和 变化 , 深入 研究 数据 质量 问题 所 遵循 的 客观 规律 ， 
分 析 其 产生 的 机 理 ， 探索 科学 有 效 的 控制 方法 和 改进 措施 。 必须 强化 全 面 数据 质量 管理 的 思想 
观念 ， 把 这 一 观念 渗透 到 数据 生命 周期 的 全 过 程 。 建 立 数据 质量 评价 体系 , 评估 数据 质量 ， 可 
以 从 以 下 4 个 方面 来 考虑 。 


COD 完整 性 : 数据 的 记录 和 信息 是 否 完整 ， 是 否 存 在 缺失 情况 。 

(2) 一 致 性 : 数据 的 记录 是 否 符合 规范 ， 是 否 与 前 后 及 其 他 数据 集 保持 统一 。 
G) 准确 性 : 数据 中 记录 的 信息 和 数据 是 否 准确 ， 是 否 存在 异常 或 者 错误 信息 。 
(4) 及 时 性 : 数据 从 产生 到 可 以 查看 的 时 间 间 隔 ， 也 叫 数据 的 延 时 时 长 。 


有 了 评估 方向 ,， 还 需要 使 用 可 以 量化 、 程 序 化 识别 的 指标 来 衡量 。 通 过 量化 指标 , 管理 者 
才 可 能 了 解 到 当前 的 数据 质量 , 并 确定 采取 修正 措施 之 后 数据 质量 的 改进 程度 。 而 对 于 海量 数 
JE, 数据 量 大 、 处 理 环节 多 ,获取 质 量 指标 的 工作 不 可 能 由 人 工 或 简单 的 程序 来 完成 ,而 需要 
程序 化 的 制度 和 流程 来 保证 ， 因 此 指标 的 设计 、 采 集 与 计算 必须 是 程序 可 识别 处 理 的 。 

完整 性 可 以 通过 记录 数 和 唯一 值 来 衡量 。 比如 某 类 交易 数据 , 每 天 的 交易 量 应 该 呈现 出 平 
稳 的 特点 , 平稳 增长 或 保持 一 定 范围 内 的 周期 波动 。 如 果 记 录 数 量 出 现 激增 或 激 减 ,就 需要 追 
溯 是 在 哪个 环节 出 现 了 变动 ， 最 终 定 位 是 数据 问题 还 是 服务 问题 。 对 于 属性 的 完整 性 考量 , 则 
可 以 通过 空 值 占 比 或 无 效 值 占 比 来 进行 检查 。 
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一 致 性 检验 主要 是 检验 数据 和 数据 定义 是 否 一 致 ， 因 此 可 以 通过 合 规 记录 的 比率 来 衡量 。 
比如 取 值 范围 是 枚 举 集合 的 数据 , 其 实际 值 超出 范围 之 外 的 数据 占 比 , 比如 存在 特定 编码 规则 
的 属性 值 , 不 符合 其 编码 规则 的 记录 占 比 。 还 有 一 些 存在 逻辑 关系 的 属性 之 间 的 校 验 ， 比 如 属 
性 A 取 某 定 值 时 ， 属 性 B 的 值 应 该 在 某 个 特定 的 数据 范围 内 ， 都 可 以 通过 合 规 率 来 衡量 。 

准确 性 可 能 存在 于 个 别 记录 ， 也 可 能 存在 于 整个 数据 集 上 。 准 确 性 和 一 致 性 的 差别 在 于 ， 
一 致 性 关注 合 规 ， 表 示 统 一 ， 而 准确 性 关注 数据 错误 。 因 此 ， 同 样 的 数据 表现 ， 比 如 数据 的 实 
际 值 不 在 定义 的 范围 内 ， 如 果 定 义 的 范围 准确 ， 值 完全 没有 意义 ,就 属于 数据 错误 。 但 如 果 值 
是 合理 且 有 意义 的 ,可 能 是 范围 定义 不 够 全 面 ,就 不 能 认定 为 数据 错误 ,而 应 该 去 补充 修改 数 
据 的 定义 。 

通过 建立 数据 质量 评价 体系 , 对 整个 流通 链条 上 的 数据 质量 进行 量化 指标 输出 , 后 续 进 行 
问题 数据 的 预警 ,使 得 问题 一 出 现 就 可 以 暴露 出 来 , 便于 进行 问题 的 定位 和 解决 , 最 终 可 以 实 
现在 哪个 环节 出 现 问题 就 在 哪个 环节 解决 ， 避 免 将 问题 数据 带 到 后 端 以 及 质量 问题 扩大 。 


4. 落实 数据 质量 信息 的 采集 、 分 析 与 监控 


有 评价 体系 作为 参照 , 还 需要 进行 数据 的 采集 、 分 析 和 监控 ,为 数据 质量 提供 全 面 可 靠 的 
信息 。 在 数据 流转 环节 的 关键 点 上 设置 采集 点 , 采集 数据 质量 监控 信息 ,按照 评价 体系 的 指标 
要 求 输出 分 析 报告 。 通 过 对 来 源 数 据 的 质量 分 析 ， 可 以 了 解数 据 和 评价 接 入 数据 的 质量 ， 通 过 
对 不 同 采集 点 的 数据 分 析 报 告 的 对 比 , 可 以 评估 数据 处 理 流程 的 工作 质量 。 配合 数据 质量 的 持 
续 改 进 工作 机 制 ， 进 行 质量 问题 原因 的 定位 、 处 理 和 跟踪 。 

5. 建立 数据 质量 的 持续 改进 工作 机 制 

通过 质量 评价 体系 和 质量 数据 采集 系统 可 以 发 现 问题 ,之 后 还 需要 对 发 现 的 问题 及 时 做 出 
反应 , 追溯 问题 的 原因 和 形成 机 制 , 根据 问题 的 种 类 采取 相应 的 改进 措施 ， 并 持续 跟踪 验证 改 
进 之 后 的 数据 质量 提升 效果 ， 形 成 正 反 馈 ， 达 到 数据 质量 持续 改良 的 效果 。 在 源头 建立 数据 标 
准 或 接 入 标准 ,规范 数据 定义 ,在 数据 流转 过 程 中 建立 监控 数据 转换 质量 的 流程 和 体系 ， 尽量 
做 到 在 哪里 发 现 问 题 就 在 哪里 解决 问题 ， 不 把 问题 数据 带 到 后 端 。 

导致 数据 质量 产生 问题 的 原因 很 多 。 有 研究 表示 ， 从 问题 的 产生 原因 和 来 源 ， 可 以 分 为 四 
大 问题 域 : 信息 问题 域 、 技 术 问题 域 、 流 程 问 题 域 和 管理 问题 域 。“ 信 息 类 问题 ”是 由 于 对 数 
据 本 身 的 描述 、 理解 及 度量 标准 偏差 而 造成 的 数据 质量 问题 。 产生 这 类 数据 质量 问题 的 主要 原 
因 包括 : 数据 标准 不 完善 、 元 数据 描述 及 理解 错误 、 数据 质量 得 不 到 保证 和 变化 频 度 不 恰当 等 。 
“技术 类 问题 "是 指 由 于 在 数据 处 理 流程 中 数据 流转 的 各 技术 环节 异常 或 缺陷 而 造成 的 数据 质 
量 问 题 ,产生 的 直接 原因 是 技术 实现 上 的 某 种 缺陷 。 技 术 类 数据 质量 问题 主要 产生 在 数据 创建 、 
数据 接 入 、 数 据 抽取 、 数 据 转换 、 数 据 装载 、 数 据 使 用 和 数据 维护 等 环节 。“ 流 程 类 问题 ”是 
指 由 于 数据 流转 的 流程 设计 不 合理 、 人 工 操作 流程 不 当 造 成 的 数据 质量 问题 。 所 有 涉及 数据 流 
转 流程 的 环节 都 可 能 出 现 问题 ， 比 如 接 入 新 数据 缺乏 对 数据 检 核 、 元 数据 变更 没有 考虑 到 历史 
数据 的 处 理 、 数 据 转 换 不 充分 等 各 种 流程 设计 错误 、 数 据 处 理 逻 辑 有 缺陷 等 问题 。“ 管 理 类 问 
题 ” 是 指 由 于 人 员 素 质 及 管理 机 制 方面 的 原因 造成 的 数据 质量 问题 。 比 如 数据 接 入 环节 由 于 工 
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期 压力 而 减少 对 数据 检 核 流程 的 执行 和 监控 、 缺乏 反 馈 渠道 及 处 理 责任 人 、 相 关 人 员 缺 乏 培训 
等 带 来 的 一 系列 问题 。 

了 解 问题 产生 的 原因 和 来 源 后 ， 就 可 以 对 每 一 类 问题 建立 起 识别 、 反 馈 、 处 理 、 验 证 的 流 
程 和 制度 。 比 如 数据 标准 不 完善 导致 的 问题 ， 就 需要 有 一 整套 数据 标准 问题 识别 、 标 准 修正 、 
现场 实施 和 验证 的 流程 ， 确 保 问题 的 准确 解决 ， 不 带 来 新 的 问题 。 比 如 缺乏 反馈 渠道 和 处 理 责 
任 人 的 问题 ， 则 属于 管理 问题 ,需要 建立 一 套数 据 质量 的 反馈 和 响应 机 制 ， 配 合 问题 识别 、 问 
题 处 理 、 解 决 方案 的 现场 实施 与 验证 、 过 程 和 积累 等 多 个 环节 和 流程 ， 保 证 每 一 个 问题 都 能 得 
到 有 效 解决 并 有 效 积累 处 理 的 过 程 和 经 验 ， 形 成 越 来 越 完善 的 有 机 运作 体 。 当 然 ， 很 多 问题 是 
相互 影 响 的 ， 单 一 地 解决 某 一 方面 的 问题 可 能 暂时 解决 不 了 所 发 现 的 问题, 但 是 当 多 方面 的 持 
续 改进 机 制 协同 工作 起 来 之 后 ， 互 相 影响 ， 交 错 前 进 ， 一 点 点 改进 ， 最 终 就 会 达到 一 个 比较 好 
的 效果 。 

6. 完善 元 数据 管理 

数据 质量 的 采集 规则 和 检查 规则 本 身 也 是 一 种 数据 , 在 元 数据 中 定义 。 元 数据 按照 官方 定 
义 ， 是 描述 数据 的 数据 。 面 对 庞大 的 数据 种 类 和 结构 ， 如 果 没有 元 数据 来 描述 这 些 数据 ， 使 用 
者 就 无 法 准确 地 获取 所 需 的 信息 。 正 是 通过 元 数据 , 海量 的 数据 才 可 以 被 理解 、 使 用 ， 才 会 产 
生 价值 。 

元 数据 可 以 按照 其 用 途 分 为 3 类 : 技术 元 数据 、 业务 元 数据 和 管理 元 数据 。“ 技 术 元 数据 ” 
是 存储 关于 信息 系统 技术 细节 的 数据 ,是 开发 和 管理 数据 而 使 用 的 数据 。 主要 包括 数据 结构 的 
描述 ， 包 括 对 数据 结构 、 数 据 处 理 过程 的 特征 描述 ， 存 储 方式 和 位 置 覆盖 涉及 整个 数据 的 生产 
和 消费 环节 。“ 业 务 元 数据 ”是 从 业务 角度 描述 数据 系统 中 的 数据 ,提供 了 业务 使 用 者 和 实际 
系统 之 间 的 语义 层 ， 主 要 包括 业务 术语 、 指 标定 义 、 业 务 规则 等 信息 。“ 管 理 元 数据 ”是 描述 
系统 中 管理 领域 相关 概念、 关系 和 规则 的 数据 ,主要 包括 人 员 角 色 、 岗 位 职责 、 管 理 流程 等 信 
息 。 良 好 的 元 数据 管理 系统 能 为 数据 质量 的 采集 、 分 析 、 监 控 、 改进 提供 高 效 、 有 力 的 强大 保 
障 。 同 时 ， 良 好 的 数据 质量 管理 系统 也 能 促进 元 数据 管理 系统 的 持续 改进 ， 互 相 促进 完善 ， 共 
同 为 一 个 高 质量 和 高 效 运转 的 数据 平台 提供 支持 。 

7. 对 不 同 的 数据 问题 分 类 处 理 

从 时 间 维度 上 分 ， 企 业 数据 主要 有 三 类 : 未 来 数据 、 当 前 数据 和 历史 数据 。 在 解决 不 同 种 
类 的 数据 质量 问题 时 ， 要 采取 不 同 的 处 理 方式。 

如 果 你 拿 着 历史 数据 找 业务 部 门 做 整改 , 业务 部 门 通 常 以 “当前 的 数据 问题 都 处 理 不 过 来 ， 
哪 有 时 间 帮 你 追查 历史 数据 的 问题 ”为 理由 无 情 拒绝 。 这 个 时 候 即便 是 找 领导 协调 ,一 般 也 起 
不 到 太 大 的 作用 。 对 于 历史 数据 问题 的 处 理 ， 一 般 可 以 发 挥 IT 技术 人 员 的 优势 ， 用 数据 清洗 
的 办 法 来 解决 ， 清 洗 的 过 程 要 综合 使 用 各 类 数据 源 ， 提 升 历史 数据 的 质量 。 

当前 数据 的 问题 需要 从 问题 定义 、 问 题 发 现 、 问 题 整改 、 问 题 跟踪 、 效 果 评 估 5 个 方面 来 
解决 。 未 来 数据 的 处 理 一 般 要 采用 做 数据 规划 的 方法 来 解决 ， 从 整个 企业 信息 化 的 角度 出 发 ， 
规划 统一 企业 数据 架构 ， 制 定 企业 数据 标准 和 数据 模型 。 借 业务 系统 改造 或 者 重建 的 时 机 , K 
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从 根本 上 提高 数据 质量 。 当 然 ， 这 种 机 会 是 可 遇 而 不 可 求 的 ， 在 机 会 到 来 之 前 ， 应 该 把 企业 数 
据 标 准 和 数据 模型 建立 起 来 ， 一 旦 机 会 出 现 ， 就 可 以 遵循 这 些 标准 。 

总 之 ， 通 过 对 不 同时 期 数据 的 分 类 处 理 ， 采 用 不 同 的 处 理 方式 做 到 事前 预防 、 事 中 监控 、 
事后 改善 ， 能 从 根本 上 解决 数据 质量 问题 ， 为 企业 业务 创新 打通 数据 关卡 。 数 据 质量 (Data 
Quality) 管理 贯穿 数据 生命 周期 的 全 过 程 ， 履 盖 质 量 评 估 、 数 据 监 控 、 数 据 探 查 、 数 据 清洗 、 
数据 诊断 等 方面 。 数 据 源 在 不 断 增多 , 数据 量 在 不 断 加 大 , 新 需求 推动 的 新 技术 也 在 不 断 诞 生 ， 
这 些 都 对 大 数据 下 的 数据 质量 管理 带 来 了 困难 和 挑战 .因此 ,数据 质量 管理 要 形成 完善 的 体系 ， 
建立 持续 改进 的 流程 和 良性 机 制 ， 持 续 监控 各 系统 数据 质量 的 波动 情况 及 数据 质量 的 规则 分 
析 ， 适 时 升级 数据 质量 监控 的 手段 和 方法 ,确保 持续 掌握 系统 数据 的 质量 状况 ,最 终 达 到 数据 
质量 的 平稳 状态 ， 为 AI 系统 提供 良好 的 数据 保障 。 数 据 质量 问题 需要 业务 部 门 参与 才能 从 根 
本 上 解决 。 要 发 挥 数据 资产 的 价值 ， 需 要 将 组 织 、 技 术 和 流程 三 者 进行 有 机 结合 ， 从 业务 出 发 
做 问题 定义 ， 由 工具 自动 、 及 时 发 现 问题 ， 跟 踪 问 题 整 改进 度 ， 并 建立 相应 的 质量 问题 评估 
KPI。 通 过 数据 质量 问题 全 过 程 的 管理 ， 才 能 最 终 实现 数据 质量 持续 提升 的 目标 ， 支 撑 数 据 业 
务 应 用 ， 体 现 数据 价值 。 


3.53 ”数据 管理 


数据 管理 和 数据 治理 有 很 多 地 方 是 互相 重合 的 , 它们 都 围绕 数据 这 个 领域 展开 , 因此 这 两 
个 术语 经 常 被 混为一谈 。 此 外 , 每 当 人 们 提起 数据 管理 和 数据 治理 的 时 候 , 还 有 一 对 类 似 的 术 
语 叫 信息 管理 和 信息 治理 , 更 混淆 了 人 们 对 它们 的 理解 。 关 于 企业 信息 管理 这 个 课题 , 还 有 许 
多 相关 的 子 集 ， 包 括 主 数据 管理 、 元 数据 管理 、 数 据 生命 周期 管理 等 。 于 是 ， 出 现 了 许多 不 同 
的 理论 描述 关于 企业 中 数据 /信息 的 管理 以 及 治理 如 何 运作 : 它们 如 何 单独 运作 ， 又 如 何 一 起 
协同 工作 ， 是 “ 自 下 而 上 ”还 是 “ 自 上 而 下 ”的 方法 更 高 效 ? 

1. 数据 治理 

其 实 , 数据 管理 包含 数据 治理 , 治理 是 整体 数据 管理 的 一 部 分 , 这 个 概念 目前 已 经 得 到 了 
业界 的 广泛 认同 。 数 据 管理 包含 多 个 不 同 的 领域 , 其 中 一 个 最 显著 的 领域 就 是 数据 治理 。CMMI 
协会 颁布 的 数据 管理 成 熟 度 “DMM) 模型 使 这 个 概念 具体 化 。DMM 模型 中 包括 6 个 有 效 数 
据 管 理 分 类 ， 而 其 中 一 个 就 是 数据 治理 。 数 据 管 理 协会 (DAMA) 在 数据 管理 知识 体系 
(DMBOK) 中 也 认为 ,数据 治理 是 数据 管理 的 一 部 分 。 在 企业 信息 管理 (EIM) 这 个 定义 上 ， 
Gartner 认为 EIM 是 “在 组 织 和 技术 的 边界 上 结构 化 、 描 述 、 治 理 信息 资产 的 一 个 综合 学 科 ”。 
Gartner 这 个 定义 不 仅 强调 了 数据 /信息 管理 和 治理 的 紧密 关系 ， 也 重申 了 数据 管理 包含 治理 这 
个 观点 。 

在 明确 数据 治理 是 数据 管理 的 一 部 分 之 后 , 下 一 个 问题 就 是 定义 数据 管理 。 数据 管理 是 一 
个 更 为 广泛 的 定义 , 它 与 任何 时 间 采 集 和 应 用 数据 的 可 重复 流程 的 方方面面 都 紧密 相关 。 例 如 ， 
简单 地 建立 和 规划 一 个 数据 平台 ,是 数据 管理 层面 的 工作 。 定 义 谁 以 及 如 何 访问 这 个 数据 平台 ， 
并 且 实施 各 种 各 样 针 对 元 数据 和 资源 库 管理 工作 的 标准 , 也 是 数据 管理 层面 的 工作 。 数 据 管理 
包含 许多 不 同 的 领域 。 
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€ ARE: 元 数据 要 求 数据 元 素 和 术语 的 一 致 性 定义 ， 它 们 通常 聚集 于 业务 词汇 表 上 。 
对 于 企业 而 言 ， 建 立 统一 的 业务 术语 非常 关键 ， 如 果 这 些 术 语 和 上 下 文 不 能 横 跨 整 个 
企业 的 范畴 ， 那 么 它 将 会 在 不 同 的 业务 部 门 中 出 现 不 同 的 表述 。 

e APARER: 数据 保存 的 时 间 跨 度 、 数 据 保存 的 位 置 以 及 数据 如 何 使 用 都 会 随 着 时 
间 而 产生 变化 ， 某 些 生命 周期 管理 还 会 受到 法 律 法 规 的 影响 。 

€ 数据 质量 : 数据 质量 的 具体 措施 包括 数据 详细 检查 的 流程 ,目的 是 让 业务 部 门 信任 这 
些 数据 。 数 据 质量 是 非常 重要 的 。 

e “引用 数据 ”管理 : “引用 数据 ”提供 数据 的 上 下 文 ， 尤 其 是 它 结合 元 数据 一 起 考虑 
的 情况 下 。 由 于 引用 数据 变更 的 频率 较 低 ， 引 用 数据 的 管理 经 常会 被 忽视 。 


2. 数据 建 模 


数据 建 模 是 另 一 个 数据 管理 中 的 关键 领域 .利用 一 个 规范 化 的 数据 建 模 有 利于 将 数据 管理 
工作 扩展 到 其 他 业务 部 门 。 遵 从 一 致 性 的 数据 建 模 ,， 令 数据 标准 变 得 有 价值 《特别 是 应 用 于 大 
数据 和 AI) 。 我 们 利用 数据 建 模 技术 直接 关联 不 同 的 数据 管理 领域 ， 例 如 数据 血缘 关系 以 及 
数据 质量 。 当 需要 合并 非 结 构 化 数据 时 ， 数 据 建 模 将 会 更 有 价值 。 此 外 ， 数 据 建 模 加 强 了 管理 
的 结构 和 形式 。 

数据 管理 在 DMM 中 有 5 个 类 型 ， 包 括 数据 管理 战略 、 数 据 质量 、 数 据 操作 (生命 周期 
管理 ) 、 平 台 与 架构 (例如 集成 和 架构 标准 ) 以 及 支持 流程 。 数 据 管理 本 身 着 重 提供 一 整套 工 
具 和 方法 ,确保 企业 实际 管理 好 这 些 数 据 。 首 先是 数据 标准 ， 有 了 标准 才 有 数据 质量 , 质量 是 
数据 满足 业务 需求 使 用 的 程度 。 有 了 标准 之 后 ,能 够 衡量 数据 ， 可 以 在 整个 平台 的 每 一 层 做 技 
术 上 的 校 验 或 者 业务 上 的 校 验 , 可 以 做 到 自动 化 的 配置 和 相应 的 校 验 , 生成 报告 来 帮助 我 们 解 
决 问 题 。 有 了 数据 标准 ， 就 可 以 建立 数据 模型 了 。 数 据 模型 至 少 包括 以 下 内 容 : 


e 数据 元 (属性 ) XX. 

e 数据 类 (对象 ) 定义。 

o 主 数 据 管理 。 

大 数据 对 现 有 数据 库 管理 技术 产生 了 很 多 挑战 。 同样, 在 传统 数据 库 上 , 创建 大 数据 的 数 
据 模型 可 能 会 面临 很 多 挑战 。 经 典 数 据 库 技术 并 没有 考虑 数据 的 多 类 别 (Variety) ， 也 没有 考 
虑 非 结 构 化 数据 的 存储 问题 。 一 般 而 言 ， 借助 数据 建 模 工作 也 可 以 在 传统 数据 库 上 创建 多 类 别 
的 数据 模型 ， 或 直接 在 HBase 等 大 数据 数据 库 系统 上 创建 。 

数据 模型 是 分 层次 的 ， 主 要 分 为 三 层 ， 基 础 模型 一 般 用 于 关系 建 模 ， 主 要 实现 数据 的 标准 
化 ; 融合 模型 一 般 用 于 维度 建 模 ， 主 要 实现 跨越 数据 的 整合 ， 整 合 的 形式 可 以 是 汇总 、 关 联 ， 
也 包括 解析 ; 挖掘 模型 其 实 是 偏 应 用 的 ， 但 如 果 用 的 人 多 了 ,你 也 可 以 把 挖掘 模型 作为 企业 的 
知识 沉淀 到 平台 ， 比 如 某 个 模型 具有 很 大 的 共性 ， 就 应 该 把 它 规整 到 平台 模型 ， 以 便 开 放 给 其 
他 人 使 用 ， 这 是 相对 的 ， 没 有 绝对 的 标准 。 
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3.5.4 数据 目录 
数据 目录 管理 系统 应 该 具备 以 下 的 能 力 〈 见 图 3-14) 。 





数据 全 发 现 。 可 d 
(EES Fame | 数据 自发 现 机 器 快速 自动 发 现 数 据 源 中 新 生成 的 数据 及 数据 变动 





数据 集 白 创建 系统 可 根据 规则 自动 创建 数据 集 


数据 集 名 称 /标签 /业务 分 类 /负责 人 
存储 详情 及 变动 趋势 


ne) | 字 数据 类 型 
re OEE yy go 


数据 规格 。 数据 生成 方式 、 数 据 使 用 范围 、 注 意 事项 


基本 信息 








EXE 支持 数据 集 字 段 、 负 责 人 等 多 维度 构 案 和 入 先 
| ELA map) | 用户 可 以 近 本 自己 的 业务 震 求 组 织 目录 结 





权限 审批 审计 
BRITE || SM Rte 
安全 和 共享 上 | 《开放 接口 ， 方 便 其他 系统 调用 


图 3-14 数据 目录 系统 功能 图 
1. 数据 的 连接 和 发 现 能 力 


做 大 数据 分 析 和 AI 首先 需要 清晰 地 知道 我 们 有 哪些 数据 ， 通 过 人 工 梳理 的 方式 显然 已 经 跟 
不 上 数据 增长 和 变化 的 速度 。 所 以 , 一 个 数据 目录 最 基础 的 能 力 就 是 可 以 连接 我 们 拥有 的 多 种 
数据 源 (如 HDFS、MySQL、HBase、ORACLE 等 ) ， 并 且 可 以 定时 地 监测 新 生成 的 数据 ， 
在 数据 目录 中 根据 规则 自动 注册 为 数据 集 或 更 新 数据 集 状 态 ( 如 关系 型 数据 库 新 产生 的 表 可 注 
册 为 数据 集 ，HDFS 分 区 格式 数据 只 更 新 当前 数据 集 的 容量 大 小 ， 等 等 ， 一 般 需 要 人 工 辅 助 审 
核 和 修改 ) 。 


2. 元 数据 管理 能 力 
元 数据 管理 能 力 包 括 以 下 三 个 方面 。 


€ 数据 集 基 本 信息 : 包括 数据 集 的 名 称 、 标 签 (业务 分 类 ) 、 负 责 人 以 及 存储 详情 的 变 
动 趋势 。 

€ 字段 描述 信息 : 字段 的 数据 类 型 、 字 段 的 业务 类 型 、 字 段 的 描述 信息 、 整 个 Schema 
的 版 本 控制 。 

全 ”数据 规格 :数据 资产 部 门 或 者 数据 负责 人 维护 数据 说 明 的 页 面 , 包 括 数据 的 生成 方式 、 
使 用 范围 、 注 意 事项 等 。 提 供 数据 规格 的 编写 能 力 ， 方 便 版 本 控制 ,用户 可 以 按照 时 
间 线 来 查询 数据 规格 。 
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3. 检索 筛选 和 用 户 自 组 织 能 力 

Q ”检索 筛选 能 力 : 如 果 数 据 目录 没有 强大 的 检索 能 力 , 系统 中 数据 集 的 信息 和 沉淀 的 相 
关 知 识 就 不 能 实现 其 价值 , 也 不 能 促进 系统 的 良性 循环 。 检索 和 筛选 的 内 容 包括 数据 
集 名 称 、 标 签 、 描 述 、 字 段 相关 信息 、 数 据 内 容 、 数 据 规 格 详情 等 。 

€ ”用户 自 组 织 数 据 集 的 能 力 : 不 同 用 户 使 用 数据 集 的 场景 不 一 样 ， 所 以 组 织 方式 也 会 不 
一 样 。 每 个 用 户 可 以 按照 自己 的 理解 和 需求 组 织 自己 的 数据 目录 ， 方便 用 户 的 使 用 。 
同时 ， 不 同 用 户 根据 不 同 场景 对 数据 集 的 组 织 方 式 也 是 一 种 知识 ， 可 以 沉淀 。 

4. 安全 和 共享 能 力 


€ /— 权限 和 审计 :为 数据 集 的 访问 提供 权限 控制 .主要 体现 在 数据 集 的 访问 申请 和 审批 上 。 
想 要 使 用 数据 集 的 用 户 可 以 在 系统 中 申请 , 访问 申请 会 自动 转向 数据 集 所 有 者 ( 负责 
人 ) ,数据 集 所 有 者 需要 在 系统 中 答复 。 所 有 申请 和 审批 都 以 时 间 线 的 方式 组 织 ， 方 
便 审 计 人 员 查 阅 和 检索 。 所 有 用 户 对 数据 集 的 操作 都 需要 做 记录 。 

@ ”共享 能 力 : 数据 集 及 相关 信息 分 享 给 使 用 者 ,使 用 者 可 以 看 到 数据 集 的 元 数据 等 详情 。 

€ FAREN: 数据 目录 应 该 提供 数据 集 的 访问 接口 ,可 以 支持 内 部 数据 探索 工具 、 数 据 
ETL 工具 的 调用 ， 可 以 支持 外 部 客户 的 调用 和 加 工 。 


图 3-15 是 一 个 数据 目录 管理 系统 的 实例 图 。 








信息 资源 目录 管理 系统 
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图 3-15 数据 目录 管理 系统 实例 


3.55 ”数据 安全 管控 


如 图 3-16 所 示 ， 安 全 保障 体系 架构 包括 安全 技术 体系 和 安全 管理 体系 。 安 全 技术 体系 采 
取 技术 手段 、 策 略 、 组 织 和 运作 体系 紧密 结合 的 方式 ， 从 应 用 、 数 据 、 主 机 、 网 络 、 物 理 等 方 
进行 信息 安全 建设 。 
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图 3-16 安全 体系 框架 


CL) 应 用 安全 ， 从 身份 鉴别 、 访 问 控 制 、 安 全 审计 、 剩 余 信 息 保护 、 通 信和 完整 性 、 通 信 
保密 性 、 抗 抵赖 、 软 件 容错 、 资 源 控制 、 代 码 安全 等 方面 进行 考虑 。 

(2) 数据 安全 ， 从 数据 属性 、 空 间 数据 、 数 据 完整 性 、 数 据 敏 感性 、 数 据 备 份 和 恢复 等 
方面 进行 考虑 。 

(3) 主机 安全 ， 从 身份 鉴别 、 访 问 控 制 、 安 全 审计 、 剩 余 信 息 保护 、 入 侵 防 范 、 恶 意 代 
码 防范 、 资 源 控制 等 方面 进行 考虑 。 

(4) 网 络 安全 ， 从 结构 安全 、 访 问 控制 、 安 全 审计 、 边 界 完整 性 检查 、 入 侵 防 范 、 恶 意 
代码 防范 和 网 络 设备 防护 等 方面 进行 考虑 。 

(5) 物理 安全 ， 是 指 机 房 物 理 环境 达到 国家 信息 系统 安全 和 信息 安全 相关 规定 的 要 求 。 


安全 管理 体系 建设 具体 包括 安全 管理 制度 、 安全 管理 机 构 、 人 员 安 全 管理 、 系 统 建设 管理 、 
系统 运 维 管理 等 方面 的 建设 。 

数据 安全 管控 是 整个 安全 体系 框架 的 一 个 组 成 部 分 ， 它 是 从 属性 数据 、 空 间 数据 、 数 据 完 
整 性 、 数 据 保密 性 、 数 据 备份 和 恢复 等 几 方面 考虑 的 。 对 于 一 些 敏感 数据 ,数据 的 传输 与 存储 
采用 不 对 称 加 密 算法 和 不 可 着 加 密 算法 确保 数据 的 安全 性 、 完 整 性 和 不 可 自 改 性 。 对 于 敏感 性 
极 高 的 空间 数据 ,坐标 信息 通过 坐标 偏 移 、 数 据 加 密 算法 及 空间 数据 分 存 等 方法 进行 处 理 。 在 
数据 的 传输 、 存 储 、 处 理 的 过 程 中 ， 使 用 事务 传输 机 制 对 数据 完整 性 进行 保证 ， 使 用 数据 质量 
管理 工具 对 数据 完整 性 进行 校 验 ， 在 监测 到 完整 性 错误 时 进行 告警 ， 并 采用 必要 的 恢复 措施 。 
数据 的 安全 机 制 应 至 少 包 含 以 下 4 个 部 分 。 

CD 身份 /访问 控制 。 通 过 用 户 认证 与 授权 实现 ， 在 授权 合法 用 户 进 入 系统 访问 数据 的 同 
时 ， 保 护 其 免 受 非 授权 的 访问 。 在 安全 管控 平台 实施 集中 的 用 户 身份 、 访 问 、 认 证 、 审 计 、 审 
查 管理 ， 通 过 动态 密码 、CA 证 书 等 设置 认证 。 
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(2) 数据 加 密 。 在 数据 传输 的 过 程 中 ， 采 用 对 称 密 钥 或 VPN 隧道 等 方式 进行 数据 加 密 
再 通过 网 络 进行 传输 。 在 数据 存储 上 ， 对 敏感 数据 先 加 密 后 存储 。 
(3) 网 络 隔离 。 通 过 内 外 网 方式 保障 敏感 数据 的 安全 性 ， 即 数据 传输 采用 公 网 ， 存 储 采 


用 内 网 。 
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(4) 灾 备 管理 。 通 过 数据 镜像 、 数 据 备份 、 分 布 式 存储 等 方式 实现 ， 保 障 数据 安全 。 


3.5.6 ”数据 准备 


如 今 的 数据 往往 来 自 文件 系统 、 数 据 库 、 数 据 湖 、 传 感 器 或 外 部 数据 源 。 为 了 满足 各 类 数 
据 的 AI 分 析 需 求 ， 我 们 必须 将 所 有 数据 采集 ， 并 将 各 个 数据 源 的 数据 互相 关联 整合 ， 比 如 


来 自 电 商 平台 的 数据 与 客户 关系 管理 中 的 客户 数据 集成 在 一 起 ， 以 定制 营销 策略 。 
物 联网 传感器 数据 与 运营 和 财务 数据 库 中 的 数据 相关 联 ,以 控制 吞吐 量 并 报告 制造 过 
程 的 质量 。 

开发 预测 模型 的 数据 科学 家 通常 会 加 载 多 种 外 部 数据 源 ， 例 如 计量 经 济 学 、 天 气 、 人 
口 普 查 和 其 他 公共 数据 ， 然 后 将 其 与 内 部 资源 融合 。 

试验 人 工 智能 的 创新 团队 需要 汇总 可 用 于 训练 和 测试 算法 的 大 型 复杂 数据 源 。 


1. 数据 整合 工具 与 平台 
那么 ,用 什么 工具 和 做 法 来 整合 数据 源 ,什么 平台 被 用 来 自动 化 整合 数据 ?主要 类 型 如 下 : 


编程 和 脚本 完成 数据 集成 。 

提取 、 转 换 和 加 载 (ETL) LH. 
数据 高 速 公路 SaaS 平台 。 

具有 数据 集成 功能 的 大 数据 管理 平台 。 
AI 注入 数据 集成 平台 。 


COD 数据 集成 编程 与 脚本 

对 于 工程 师 来 说 ， 将 数据 从 源 文件 移动 到 目标 文件 最 常见 的 方式 是 开发 一 个 简短 的 脚本 。 
这 些 脚 本 通常 以 几 种 模式 之 一 运行 : 它们 可 以 按照 预定 义 的 时 间 表 运行 , 也 可 以 作为 由 事件 触 
发 的 服务 运行 , 或 者 在 满足 定义 的 条 件 时 做 出 响应 。 工程 师 可 以 从 多 个 来 源 获取 数据 ,在 将 数 
据 传送 到 目标 数据 源 之 前 加 入 过 滤 、 清 理 、 验 证 和 数据 转换 。 

脚本 是 移动 数据 的 快捷 方式 , 但 它 不 是 专业 级 的 数据 处 理 方法 。 要 成 为 生产 级 的 数据 处 理 
脚本 ， 需 要 自动 执行 处 理 和 传输 数据 所 需 的 步 又， 并 处 理 多 种 操作 需求 。 例 如 ， 若 脚本 正在 处 
理 大 量 数据 ， 则 可 能 需要 使 用 Apache Spark 或 其 他 并 行 处 理 引擎 来 运行 多 线程 作业 。 如 果 输 
入 的 数据 不 干净 , 程序 员 应 该 启用 异常 处 理 并 在 不 影响 数据 流 的 情况 下 踢 出 记录 。 数据 集成 脚 
本 通常 难以 跨 多 个 开发 人 员 进 行 维护 。 出 于 这 些 原因 , 具有 较 大 数据 集成 需求 的 组 织 通常 不 会 
只 用 编程 和 脚本 来 实现 数据 集成 。 





OD 提取 、 转 换 与 加 载 工具 

Á 20 世纪 70 年 代 以 来 ，ETL 技术 已 经 出 现 ，IBM、Informatica、 微 软 、Oracle、Talend 
等 公司 提供 的 ETL 工具 在 功能 、 性 能 和 稳定 性 方面 已 经 成 熟 。 这 些 平台 提供 可 视 化 编程 工具 ， 
让 开发 人 员 能 够 分 解 并 自动 执行 从 源 中 提取 的 数据 ,执行 转换 并 将 数据 推送 到 目标 存储 库 的 步 
又 。 由 于 它们 是 可 视 化 的 ， 并 将 数据 流 分 解 为 原子 步 又， 与 难以 解码 的 脚本 相 比 ， 管 道 更 易于 
管理 和 增强 。 另 外 ，ETL 平台 通常 提供 操作 界面 来 显示 数据 管道 崩溃 的 位 置 并 提供 重启 它们 
的 步骤 。 

多 年 来 ，ETL 平台 增加 了 许多 功能 。 大 多 数 平台 可 以 处 理 来 自 数据 库 、 平 面 文件 和 Web 
服务 的 数据 ， 无 论 它 们 在 本 地 、 云 中 ， 还 是 在 SaaS 数据 存储 中 。 它 们 支持 各 种 数据 格式 ， 包 
括 关 系数 据 、XML 和 ISON 等 半 结 构 化 格式 ， 以 及 非 结 构 化 数据 和 文档 。 许 多 工具 使 用 Spark 
或 其 他 并 行 处 理 引 擎 来 并 行 化 作业 。 企 业 级 ETL 平台 通常 包括 数据 质量 功能 ， 因 此 数据 可 以 
通过 规则 或 模式 进行 验证 ， 并 将 异常 发 送 给 数据 管理 员 进 行 解决 。 

当 数 据 源 持续 提供 新 数据 并 且 目 标 数据 存储 的 数据 结构 不 会 频繁 更 改 时 , 通常 会 使 用 ETL 
平台 。 


(3) 面向 SaaS 平台 的 数据 高 速 公 路 
是 否 有 更 有 效 的 方法 从 常见 数据 源 中 提取 数据 呢 ? 也 许 主要 数据 目标 是 从 Salesforce. 
Microsoft Dynamics 或 其 他 常见 CRM 程序 中 提取 账户 或 客户 联系 人 。 或 者 ， 营 销 人 员 希 望 从 
Google Analytics 等 工具 中 提取 网 络 分 析 数 据 。 我 们 应 该 如 何 防止 SaaS 平台 成 为 云 中 的 数据 孤 
岛 ， 并 轻松 实现 双向 数据 流 呢 ? 如 果 我 们 已 经 拥有 ETL 工具 ， 则 需要 查看 该 工具 是 否 提供 通 
用 SaaS 平台 的 标准 连接 器 。 如 果 我 们 没有 ETL 工具 ,那么 可 能 需要 一 个 易于 使 用 的 工具 来 构 
建 简单 的 数据 高 速 公路 。 
Scribe, Snaplogic 和 Stitch 等 数据 高 速 公路 工具 提供 了 简单 的 网 络 界面 ， 可 以 连接 到 常见 
的 数据 源 ， 选 择 感 兴趣 的 领域 ， 执 行 基本 转换 ， 并 将 数据 推送 到 常用 目的 地 。 数 据 高 速 公 路 的 
另 一 种 形式 有 助 于 更 接近 实时 地 整合 数据 。 它 通过 触发 器 进行 操作 , 因此 当 源 系统 中 的 数据 发 
生 更 改 时 , 可 以 将 其 操作 并 推送 到 辅助 系统 。 IFTTT、Workato 和 Zapier 就 是 这 类 工具 的 例子 。 
这 些 工具 对 于 将 单个 记录 从 一 个 SaaS 平 台 转移 到 另 一 个 SaaS 平 台 时 特别 有 用 ,在 评估 它们 时 ， 
请 考虑 它们 集成 的 平台 数量 、 处 理 逻 辑 的 功能 和 简单 性 以 及 价格 。 
(4) 大 数据 企业 平台 与 数据 集成 功能 
如 果 正 在 Hadoop 或 其 他 大 数据 平台 上 开发 功能 ， 则 可 以 选择 : 
@ 开发 脚本 或 使 用 支持 大 数据 平台 的 ETL 工具 作为 端点 。 
e ”具有 ETL、 数 据 治理 、 数 据 质量 、 数 据 准 备 和 主 数据 功能 的 端 到 端 数 据 管 理 平台 。 


许多 提供 ETL 工具 的 供应 商 也 出 售 具有 这 些 新 型 大 数据 功能 的 企业 平台 。 还 有 像 
Datameer 和 Unifi 这 样 的 新 兴 平 台 可 以 实现 自助 服务 (如 数据 准备 工具 ) ， 并 可 以 在 Hadoop 
发 行 版 上 运行 。 
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(5) AI 驱动 型 数据 集成 平台 

一 些 下 一 代数 据 集成 工具 将 包括 人 工 智能 功能 , 以 帮助 自动 化 重复 性 任务 或 识别 难以 找到 
的 数据 模式 。 例 如 , Informatica 提供 了 智能 数据 平台 Claire, 而 Snaplogic 正在 营销 Iris, 它 “ 推 
动 自我 驱动 整合 ”。 

2.ETL 

ETL 就 是 对 数据 的 合并 、 清 理 和 整合 。 通 过 转换 可 以 实现 不 同 的 源 数据 在 语义 上 的 一 臻 
性 。 数 据 采集 平台 主要 是 ETL， 它 是 数据 处 理 的 第 一 步 ， 一 切 的 开端 。 有 数据 库 就 会 有 数据 ， 
就 需要 采集 。 在 数据 挖掘 的 范畴 中 ， 数 据 清洗 的 前 期 过 程 可 简单 地 认为 是 ETL 的 过 程 。ETL 
伴随 着 数据 挖掘 发 展 至 今 ， 其 相关 技术 也 已 非常 成 熟 。 


(1) 概念 

ETL 是 Extract (HW) ~ Transform (转换 ) ~ Load (加 载 ) 三 个 单词 的 首 字母 。ETL 负 
责 将 分 散 的 、 异 构 数据 源 中 的 数据 (如 关系 数据 库 数 据 、 平 面 数据 文件 等 ) 抽取 到 临时 中 间 层 
后 ， 进 行 清洗 、 转 换 和 集成 ， 最 后 加 载 到 大 数据 平台 中 ,成 为 为 分 析 处 理 、 数 据 挖掘 提供 决策 
支持 的 数据 。 

ETL 是 构建 大 数据 平台 重要 的 一 环 ， 用 户 从 数据 源 抽取 所 需 的 数据 ， 经 过 数据 清洗 ， 最 
终 按照 预先 定义 好 的 数据 模型 将 数据 加 载 到 大 数据 平台 中 。ETL 技术 已 发 展 得 相当 成 熟 ， 似 
平 并 没有 什么 深奥 之 处 , 但 在 实际 的 项 目 中 ， 却 常常 在 这 个 环节 上 耗费 太 多 的 人 力 , 而 在 后 期 
的 维护 上 ， 往 往 更 费 脑筋 。 导 致 上 面 的 原因 往往 是 在 项 目 初期 没有 正确 地 估计 ETL 的 工作 ， 
没有 认真 地 考虑 其 与 工具 支撑 有 很 大 的 关系 。 

在 做 ETL 产品 选 型 的 时 候 ， 仍 然 必 不 可 少 地 要 考虑 4 点 : 成 本 、 人 员 经 验 、 案 例 和 技术 
支持 。ETL 工具 包括 Datastage、Powercenter、Kettle 等 。 在 实际 ETL 工具 应 用 的 对 比 上 ， 对 
元 数据 的 支持 、 对 数据 质量 的 支持 、 维 护 的 方便 性 、 对 定制 开发 功能 的 支持 等 方面 是 我 们 选择 
的 切入 点 。 一 个 项 目 ， 从 数据 源 到 最 终 目 标 平台 ， 多 则 达 上 百 个 ETL 过 程 ， 少 则 也 有 十 几 个 。 
这 些 过 程 之 间 的 依赖 关系 、 出 错 控制 以 及 恢复 的 流程 处 理 都 是 工具 所 需要 重点 考虑 的 内 容 。 


(2) 过 程 

在 整个 数据 平台 的 构建 中 ，ETL 工作 占 整 个 工作 的 50%~70%。 要 求 的 第 一 点 就 是 ， 团 队 
协作 性 要 好 。ETL 包含 E、T、L， 还 有 日 志 的 控制 、 数 据 模型 、 数 据 验证 、 数 据 质 量 等 方面 。 
例如 ， 我 们 要 整合 一 个 企业 亚太 区 的 数据 ， 但 是 每 个 国家 都 有 自己 的 数据 源 ， 有 的 是 ERP， 
有 的 是 Access， 而 且 数据 库 都 不 一 样 ， 要 考虑 网 络 的 性 能 问题 ， 如 果 直 接 用 JDBC 连接 两 地 
的 数据 源 ， 这 样 的 做 法 显然 是 不 合理 的 ， 因 为 网 络 不 好 ， 经 常 连接 ， 很 容易 导致 数据 库 连 接 不 
能 释放 导致 死机 。 如 果 我 们 在 各 地 区 的 服务 器 放置 一 个 数据 导出 为 Access 或 者 文件 的 程序 ， 
这 样 文件 就 可 以 比较 方便 地 通过 FTP 的 方式 进行 传输 。 下 面 我 们 指出 上 述 案例 需要 做 的 几 项 
Td. 


O 有 人 写 一 个 通用 的 数据 导出 工具 ， 可 以 用 Java、 脚 本 或 其 他 的 工具 ， 总 之 要 通用 ， 可 
以 通过 不 同 的 脚本 文件 来 控制 , 使 各 地 区 的 不 同 数据 库 导 出 的 文件 格式 是 一 样 的 。 而 且 还 可 以 
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实现 并 行 操作 。 

© 有 人 写 FTP 的 程序 ， 可 以 用 BAT. ETL 工具 或 其 他 的 方式 ， 总 之 要 准确 ， 而 且 方 便 
调用 和 控制 。 

© 有 人 设计 数据 模型 ， 包 括 在 1 之 后 导出 的 结构 。 

@ 有 人 写 SP， 包 括 ETL 中 需要 用 到 的 SP 和 日 常 维护 系统 的 SP， 比 如 检查 数据 质量 之 


类 的 。 


© 有 人 分 析 源 数据 ， 包 括 表 结构 、 数 据 质量 、 空 值 和 业务 逻辑 。 
@ 有 人 负责 开发 流程 ， 包 括 实现 各 种 功能 ， 还 有 日 志 的 记录 ， 等 等 。 
C) 有 人 测试 真正 好 的 ETL， 都 是 团队 来 完成 的 ， 一 个 人 的 力量 是 有 限 的 。 


(3) ETL 处 理 步骤 





EBLE, Ty L 和 异常 处 理 简单 地 说 明 。 


Q@ 数据 清洗 


数据 补缺 : 对 空 数据 、 缺 失 数据 进行 数据 补缺 操作 ， 无 法 处 理 的 做 标记 。 

数据 替换 : 对 无 效 数 据 进行 数据 的 替换 。 

格式 规范 化 : 将 源 数 据 抽取 的 数据 格式 转换 成 为 目标 数据 格式 。 

主 外 键 约束 : 通过 建立 主 外 键 约束 , 对 非法 数据 进行 数据 替换 或 导出 到 错误 文件 重新 
处 理 。 


@ 数据 转换 


数据 合并 : 多 用 表 关 联 实现 ， 大 小 表 关联 用 lookup. AX X EG Ul join ( 每 个 字段 加 
索引 ， 保 证 关联 查询 的 效率 ) 。 

数据 拆 分 : 按 一 定 规则 进行 数据 拆 分 。 

行列 互 换 、 排 序 /修改 序号 、 去 除 重 复 记 录 。 

数据 验证 : loolup. sum. count. 


实现 方式 包含 两 种 ， 一 种 是 在 ETL 引擎 中 进行 的 〈SQL 无 法 实现 的 ) ; 另 一 种 是 在 数据 
库 中 进行 的 (SQL 可 以 实现 的 ) 。 


© 数据 加 载 


WEAR A: 在 业务 表 中 统一 添加 字段 作为 时 间 戳 ， 当 业务 系统 修改 业务 数据 时 ， 同 
时 修改 时 间 戳 字段 值 。 

日 志 表 方式 : 在 业务 系统 中 添加 日 志 表 , 业务 数据 发 生变 化 时 , 更 新 维护 日 志 表 的 内 容 。 
全 表 对 比方 式 : 抽取 所 有 源 数 据 ,在 更 新 目标 表 之 前 先 根据 主键 和 字段 进行 数据 比 对 ， 
有 更 新 的 进行 update 或 insert。 

全 表 删 除 插入 方式 : 删除 目标 表 数 据 ， 将 源 数据 全 部 插入 。 
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© 异常 处 理 
在 ETL 的 过 程 中 ， 面 临 数 据 异常 的 问题 不 可 避免 ， 处 理 办 法 为 : 


e ”将 错误 信息 单独 输出 ， 继 续 执 行 ETL， 错 误 数 据 修改 后 再 单独 加 载 。 或 者 中 断 ETL， 
修改 后 重新 执行 ETL。 原 则 是 最 大 限度 地 接收 数据 。 

e ”对 于 网 络 中 断 等 外 部 原因 造成 的 异常 ， 设 定 尝试 次 数 或 尝试 时 间 ， 超 数 或 超时 后 ， 由 
外 部 人 员 手 工 干预 。 

@ ”诸如 源 数据 结构 改变 、 接 口 改 变 等 异常 状况 ， 应 进行 同步 后 ， 再 装载 数据 。 


ETL 不 是 想象 中 的 一 路 而 就 ， 在 实际 过 程 中 ， 你 会 遇 到 各 种 各 样 的 问题 ， 甚 至 是 部 门 之 
间 沟 通 的 问题 。 给 它 定义 到 占据 整个 项 目 50%~70% 是 不 足 为 过 的 。 

如 图 3-17 所 示 是 一 个 大 数据 采集 平台 ， 提 供 数据 获取 、 清 理 、 更 换 和 存储 数据 。 该 平台 
允许 访问 不 同 的 数据 源 , 让 不 同 的 采集 任务 可 以 同时 访问 多 个 数据 源 。 它 可 以 追踪 采集 过 程 中 
的 每 个 步骤 。 该 产品 既 可 以 作为 云 服务 部 署 来 确保 数据 准备 的 灵活 性 , 也 可 以 作为 内 部 部 署 的 
解决 方案 ， 可 以 整合 到 Hadoop、 数 据 库 和 各 种 报表 呈现 工具 中 ， 以 更 快 获取 价值 。 

总 之 ， 大 数据 现在 是 一 个 热门 话题 ， 但 企业 和 IT 领导 者 需要 明白 ,分析 糟 糕 的 数据 意味 
着 糟糕 的 分 析 结 果 , 可 能 会 造成 错误 的 商业 决策 。 正 因为 如 此 , 读者 一 定 要 高 度 重视 数据 准备 。 
在 大 数据 平台 建设 中 ,推进 数据 标准 体系 建设 , 制定 有 关 大 数据 的 数据 采集 、 数 据 开放 、 分 类 
目录 和 关键 技术 等 标准 ， 推 动 标准 符合 性 评估 。 要 加 大 标准 实施 力度 ， 完 善 标准 服务 、 评 测 、 
监督 体系 ， 坚 持 标准 先行 。 
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图 所 有 采集 服务 











图 3-17 大 数据 采集 平台 
3. 数据 profile 能 力 
数据 的 profile 能 力 包括 : 
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e 数据 集 的 条 数 、 空 值 等 。 

针对 枚 举 字段 枚 举 值 的 统计 ， 针 对 数据 类 型 字段 数值 分 布 范围 的 统计 。 

€ 用 户 自 定义 策略 的 统计 。 提供 用户 自 定义 界面 ， 可 以 组 合 各 种 规则 统计 数据 集中 满足 
条 件 的 数据 条 数 。 

€ ”针对 各 类 指标 的 时 序 可 视 化 展示 。 数 据 profile 有 了 时 序 的 概念 ， 才 能 做 一 些 数据 赵 
势 的 分 析 ， 以 及 监控 和 报警 。 


数据 平台 应 该 可 灵活 配置 数据 集 profile 的 计算 频率 。 对 于 不 同 的 数据 集 ， 数 据 量 差距 很 
大 。 针 对 一 个 小 表 ， 数据 集 的 profile 可 能 秒 出 ， 大 库 大 表 的 数据 集 的 profile 只 能 定时 运行 了 。 


3.5.7 ”数据 整合 


数据 整合 是 对 导入 的 各 类 源 数 据 进 行 整合 , 新 进入 的 源 数 据 匹 配 到 平台 上 的 标准 数据 , 或 者 
成 为 系统 中 新 的 标准 数据 。 数 据 整合 工具 对 数据 关联 关系 进行 设置 。 经 过 整合 的 源 数 据 实现 了 基 
本 信息 的 唯一 性 ， 同 时 又 保留 了 与 原始 数据 的 关联 性 。 具 体 功 能 包括 关键 字 匹 配 、 自 动 匹 配 、 新 
增 标准 数据 和 匹配 质量 校 验 4 个 模块 。 有时， 需要 对 标准 数据 列表 中 的 重复 数据 进行 合并 ， 在 合 
并 时 保留 一 个 标准 源 。 对 一 些 拥有 上 下 级 关联 的 数据 ， 对 它们 的 关联 关系 进行 管理 设置 。 

数据 质量 校 验 包括 数据 导入 质量 校 验 和 数据 整合 质量 校 验 两 个 部 分 ,数据 导入 质量 校 验 的 
工作 过 程 是 通过 对 原始 数据 与 平台 数据 从 数量 一 致 性 、 重 点 字段 一 致 性 等 方面 进行 校 验 , 保证 
数据 从 源 库 导入 平台 前 后 的 一 致 性 ;数据 整合 质量 校 验 的 工作 是 对 经 过 整合 匹配 后 的 数据 进行 
质量 校 验 ， 保 证 匹配 数据 的 准确 性 ， 比 如 通过 SQL 脚本 进行 完整 性 校 验 。 

数据 整合 往往 涉及 多 个 整合 流程 ， 所 以 数据 平台 一 般 具 有 BPM 引擎 ， 能 够 对 整合 流程 进 
行 配置 、 执 行 和 监控 。 


3.58 数据 服务 


将 数据 模型 按照 应 用 要 求 做 了 服务 封装 , 就 构成 了 数据 服务 , 这 个 跟 业 务 系统 中 的 服务 概 
念 是 完全 相同 的 ， 只 是 数据 封装 比 一 般 的 功能 封装 要 难 一 点 。 随 着 企业 大 数据 运营 的 深入 , 各 
类 大 数据 应 用 层出不穷 , 对 于 数据 服务 的 需求 非常 迫切 , 大 数据 如 果 不 服务 化 , 就 无 法 规模 化 ， 
比如 某 移动 运营 商 封装 了 客户 洞察 、 位 置 洞察 、 营 销 管理 、 终 端 洞察 、 金 融 征 信 等 各 种 服务 共 
计 几 百 个 ， 每 月 调用 量 超过 亿 次 ， 灵 活 地 满足 了 内 外 大 数据 服务 的 要 求 。 

数据 服务 往往 需要 运行 在 企业 服务 总 线 (Enterprise Service Bus，ESB) 之 上 。ESB 基于 
SOA 构建 ， 完 成 数据 服务 的 释放 、 监 控 、 统 计 和 审计 。 除 了 直接 访问 数据 的 服务 之 外 ， 数 据 
服务 还 可 能 包括 数据 处 理 服务 、 数 据 统 计 和 分 析 服务 〈 比 如 Top N 排行 榜 ) 、 数 据 挖掘 服务 

(比如 关联 规则 分 析 、 分 类 、 聚 类 ) 和 预测 服务 〈 比 如 预测 模型 和 机 器 学 习 后 的 结果 数据 ) 。 
有 时 ， 算 法 服务 也 属于 数据 服务 的 一 种 类 型 。 


3.5.9 数据 开发 
有 了 数据 模型 和 数据 服务 还 是 远 远 不 够 的 , 因为 再 好 的 现成 数据 和 服务 也 往往 无 法 满足 前 





107 





人 工 智能 与 大 数据 技术 导论 


端 个 性 化 的 要 求 , 数据 平台 的 最 后 一 层 就 是 数据 开发 ， 其 按照 开发 难度 也 分 为 三 个 层次 ,最 简 
单 的 是 提供 标签 库 , 比如 , 用 户 可 以 基于 标签 的 组 装 快 速 形成 营销 客户 群 , 一 般 面 向 业务 人 员 ; 
其 次 是 提供 数据 开发 平台 , 用 户 可 以 基于 该 平台 访问 所 有 的 数据 并 进行 可 视 化 开发 , 一 般 面向 
SQL 开发 人 员 ; 最 后 就 是 提供 应 用 环境 和 组 件 ， 比 如 页 面 组 件 、 可 视 化 组 件 等 ， 让 技术 人 员 
可 以 自主 打造 个 性 化 数据 产品 ， 以 上 层 层 递 进 ， 满 足 不 同 层次 人 员 的 要 求 。 


3.5.10 ”数据 平台 总 结 


大 数据 行业 应 用 持续 升温 , 特别 是 企业 级 大 数据 市 场 正在 进入 快速 发 展 时 期 。 越 来 越 多 的 
企业 期 望 实现 数据 孤岛 的 打通 ， 整 合 海量 的 数据 资源 ， 控 掘 并 沉淀 有 价值 的 数据 ,进而 驱动 更 
智能 的 商业 。 随 着 公司 数据 爆发 式 增长 ， 原 有 的 数据 库 无 法 承担 海量 数据 的 处 理 ， 那 么 就 开始 
考虑 大 数据 平台 了 。 大 数据 平台 应 该 支持 大 数据 常用 的 Hadoop 组 件 , 如 HBase, Hive, Flume, 
Spark， 也 可 以 接 Greenplum， 而 Greenplum 正好 有 它 的 外 部 表 〈 也 就 是 Greenplum 创建 一 张 
表 ， 表 的 特性 叫 作 外 部 表 ， 读 取 的 内 容 是 Hadoop 的 Hive 中 的 ) ， 这 可 以 和 Hadoop 融合 C 
然 也 可 以 不 用 外 部 表 ) 。 通 过 搭建 企业 级 的 大 数据 平台 ， 打 通 各 系统 之 间 的 数据 ， 通 过 多 源 异 
构 接 入 多 个 业务 系统 的 数据 ， 完 成 对 海量 数据 的 整合 。 大 数据 采集 平台 应 支持 多 样 数据 源 ， 接 
口 丰富 ， 支 持 文件 和 关系 型 数据 库 等 ， 支 持 直 接 跨 库 跨 源 的 混合 计算 。 

大 数据 平台 实现 数据 的 分 层 与 水 平 解 耦 , 沉淀 公共 的 数据 能 力 。 这 可 分 为 三 层 : 数据 模型 、 
数据 服务 与 数据 开发 , 通过 数据 建 模 实现 跨 域 数据 的 整合 和 知识 沉淀 , 通过 数据 服务 实现 对 于 
数据 的 封装 和 开放 , 快速、 灵活 地 满足 上 层 应 用 的 要 求 ， 通 过 数据 开发 工具 满足 个 性 化 数据 和 
应 用 的 需要 。 图 3-18 是 某 运 营 商 的 数据 平台 。 


标签 库 
数据 开发 平台 


| Nm M opted NEN 


m 金融 
^ E 
服务 服务 E 


| 日 ooo m 
图 3-18 数据 平台 实例 
数据 平台 还 涉及 三 方面 内 容 。 第 一 是 数据 技术 。 大 家 都 有 自己 的 数据 中 心 、 机 房 、 小 数据 
库 。 但 当 数 据 积 累 到 一 定 体 量 后 , 这 方面 的 成 本 会 非常 高 , 而 且 数 据 之 间 的 质量 和 标准 不 一 样 ， 
会 导致 效率 不 高 等 问题 。 因 此 ， 我 们 需要 通过 数据 技术 对 海量 数据 进行 采集 、 计 算 、 存 储 、 加 
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工 ， 同 时 统一 标准 和 口径 。 第 二 是 数据 资产 。 把 数据 统一 之 后 , 会 形成 标准 数据 ， 再 进行 存储 ， 
形成 大 数据 资产 层 ， 进 而 保证 为 各 业务 提供 高 效 服务 。 第 三 是 数据 服务 ， 包 括 指数 ， 就 是 数据 
平台 面向 上 端 提供 的 数据 服务 。 

数据 平台 应 确保 大 家 在 使 用 数据 的 过 程 中 ， 口径、 标准 、 时 效 性 、 效 率 都 有 保障 ， 能 有 更 
高 的 可 靠 性 和 稳定 性 。 




















了 , ”大 数据 的 商用 途径 


前 面 阐述 了 大 数据 相关 的 定义 与 相关 技术 ,那么 大 数据 怎么 转变 为 商业 价值 呢 ? 下 面 我 们 
从 数据 使 用 的 几 个 层面 来 描述 。 


3.6.1 数据 化 


首先 必须 有 数据 ， 就 是 大 数据 的 采集 与 存储 。 很 多 时 候 ， 如 果 我 们 连 数据 都 没有 ， 大 数据 
只 能 是 空中 楼 阁 。 所 以 ， 一 个 想 要 做 大 数据 的 政府 部 门 或 企业 ， 必 须 先 想 办 法 拥有 数据 ， 或 者 
AXE. MOH. "isch. 

其 次 是 数据 互通 互联 。 比 如 一 个 企业 内 部 存在 很 多 信息 孤岛 , 信息 孤岛 之 间 必 须 打通 , 形 
成 统一 的 大 数据 平台 。 最 好 的 办 法 其 实 就 是 企业 建立 一 个 统一 的 大 数据 平台 , 当 所 有 的 数据 上 
传 到 这 个 大 数据 平台 后 ， 数 据 自 然 就 打通 了 。 互 联 其 实 就 是 数据 的 标准 ， 如 果 想 让 不 同 的 数据 
源 可 以 相互 关联 ， 形 成 更 大 的 效应 ， 就 得 有 数据 标准 。 数 据 标准 不 仅仅 可 以 指导 ETL 过 程 中 
的 数据 清洗 、 数 据 校 验 ， 好 的 数据 标准 还 可 以 使 得 无 线 的 数据 跟 PC 的 数据 相互 关联 互通 ,其 
至 企业 之 间 的 数据 关联 互通 。 

这 些 过 程 可 以 称 为 数据 化 的 过 程 ， 也 就 是 大 数据 的 基本 要 素 一 一 数据 的 形成 。 


3.6.2 算法 化 


有 了 数据 ,就 可 以 加 工 使 用 了 。 严 格 意义 上 说 ,是 指 采用 大 数据 的 相关 技术 对 大 数据 进行 
加 工 、 分 析 ， 并 最 终 创造 商业 价值 的 过 程 。 在 这 个 过 程 中 ， 最 核心 的 就 是 算法 。 我 们 提 到 算法 
时 ， 往 往 也 会 谈 到 引擎 ,仅仅 提 引 擎 一 词 ， 更 多 想到 的 可 能 是 汽车 的 发 动机 。 汽 车 引擎 无 论 多 
复杂 ， 其 实 输入 、 输 出 是 很 简单 的 ， 需 要 的 是 汽油 + 空气 ， 输 出 动力 (汽油 的 能 量 ) 。 大 数据 
的 引擎 可 能 是 一 组 算法 的 封装 , 数据 就 是 输入 的 汽油 ,通过 引擎 的 转换 输出 数据 中 的 能 量 , d 
供给 更 上 层 的 数据 产品 或 者 服务 ， 从 而 产生 商业 价值 。 

算法 是 “机 器 学 习 ” 的 核心 ， 机 器 学 习 又 是 “人 工 智 能 ”的 核心 ， 是 使 计算 机 具有 智能 的 
根本 途径 。 在 过 去 10 年 里 ， 机 器 学 习 促 成 了 无 人 驾驶 车 、 高 效 语音 识别 、 精 确 网 络 搜索 及 人 
类 基因 组 认 知 的 大 力 发 展 。 从 根本 上 来 说 , 数据 是 不 会 说 话 的 ， 只 有 数据 没有 任何 价值 。 如 果 
拥有 大 量 的 数据 ， 而 不 知道 怎么 使 用 ， 就 好 像 “ 坐 在 金山 上 要 饭 ”。 算 法 其 实 指 的 是 如 何在 业 
务 过 程 中 有 效 利用 数据 。 在 不 远 的 未 来 ， 所 有 业务 都 将 成 为 算法 业务 ,算法 才 是 真正 打开 数据 
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价值 的 密 钥 。 当 算法 迭代 优化 时 ,决定 其 方向 的 不 仅 是 数据 本 身 的 特性 , 更 包含 我 们 对 业务 本 
质 的 理解 和 创造 新 业务 。 这 就 是 我 们 称 算法 为 “引擎 ”而 非 “ 工 具 ” 的 关键 理由 ， 它 是 智能 
的 核心 。 基 于 数据 和 算法 ， 完 成 “机 器 学 习 ”， 实 现 “ 人 工 智能 ”。 


3.6.3 应 用 化 〈 产 品 化 ) 


把 用 户 、 数 据 和 算法 巧妙 地 连接 起 来 的 是 数据 应 用 (或 数据 产品 ) ， 这 也 是 大 数据 时 代 特 
别 强调 数据 产品 重要 性 的 根本 原因 。 最终, 大 数据 的 成 功 最 关键 的 一 步 往往 是 一 个 极 富 想 象 力 
的 创新 应 用 。 智 能 化 数据 产品 的 要 求 是 非常 高 的 , 不 仅仅 是 与 最 终 用 户 形成 个 性 化 、 智 能 化 的 
交互 ,而 且 还 要 有 完好 的 用 户 体验 与 突破 的 技术 创新 。 比 如 金融 行业 的 “ 秒 贷 ”， 就 是 基于 算 
法 的 数据 智能 实时 发 挥 作用 ， 最终 实 现 秒 级 放贷 ,这 个 是 传统 的 金融 服务 没 法 想象 的 。 这 样 的 
智能 商业 才 是 对 传统 商业 的 颠覆 。 

比如 ,大 数据 营销 是 一 个 热门 的 大 数据 应 用 。 对 于 多 数 企 业 而 言 ,大 数据 营销 的 主要 价值 
源 于 以 下 几 个 方面 。 

@ 市 场 预测 与 决策 分 析 支 持 


数据 对 市 场 预测 及 决策 分 析 的 支持 , 早 就 在 数据 分 析 与 数据 挖掘 盛行 的 年 代 被 提出 过 。 IR 
尔 玛 著名 的 “啤酒 与 尿布 ”案例 就 是 那个 时 候 的 杰作 。 只 是 由 于 大 数据 时 代 上 述 Volume OR 
EK) 及 Variety (类 型 多 ) 对 数据 分 析 与 数据 挖掘 提出 了 新 要 求 。 更 全 面 、 速 度 更 及 时 的 大 
数据 必然 对 市 场 预测 及 决策 分 析 上 一 个 台阶 提供 更 好 的 支撑 。 要 知道 ， 似 是 而 非 或 错误 的 、 过 
时 的 数据 对 决策 者 而 言 简直 就 是 灾难 。 


e ”发 现 新 市 场 与 新 趋势 


基于 大 数据 的 分 析 与 预测 ， 对 于 企业 家 洞察 新 市 场 与 把 握 经 济 走向 都 是 极 大 的 支持 。 例 
如 , 微软 研究 院 通 过 大 数据 分 析 对 奥斯卡 各 奖项 的 归属 进行 了 预测 ， 除 最 佳 导演 外 ， 其 他 各 项 
奖 的 预测 全 部 命中 。 


e ”客户 分 级 管理 支持 


面 对 日 新 月 异 的 新 媒体 , 许多 企业 想 通 过 对 粉丝 的 公开 内 容 和 互动 记录 的 分 析 , 将 粉丝 转 
化 为 潜在 用 户 , 激活 社会 化 资产 价值 ， 并 对 潜在 用 户 进行 多 个 维度 的 画像 。 大 数据 可 以 分 析 活 
跃 粉丝 的 互动 内 容 ， 设 定 消费 者 画像 的 各 种 规则 ， 关 联 潜在 用 户 与 会 员 数据 ， 关 联 潜 在 用 户 与 
客服 数据 ， 筛 选 目标 群体 做 精准 营销 ,进而 可 以 使 传统 客户 关系 管理 结合 社交 数据 ,丰富 用 户 
不 同 维度 的 标签 ， 并 可 以 动态 地 更 新 消费 者 的 生命 周期 数据 ， 保 持 信息 新 鲜 有 效 。 


@ ”大 数据 用 于 改善 用 户 体验 


要 改善 用 户 体验 ， 关 键 在 于 真正 了 解 用 户 及 他 们 使 用 你 的 产品 的 状况 ， 做 最 适时 的 提醒 。 
例如 , 在 大 数据 时 代 , 或 许 你 正 驾驶 的 汽车 可 以 提前 救 你 一 命 。 只 要 通过 遍布 全 车 的 传感器 收 
集 车 辆 运行 信息 ， 在 你 的 汽车 关键 部 件 发 生 问题 之 前 ， 就 会 提前 向 你 或 AS 店 预警 ， 这 决 不 仅 
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仅 是 节省 金钱 ， 而 且 对 保护 生命 大 有 神 益 。 事 实 上 ， 美 国 的 UPS 快递 公司 早 在 2000 年 就 利用 
这 种 基于 大 数据 的 预测 性 分 析 系统 来 检测 全 美 60 000 辆 车 辆 的 实时 车 况 ， 以 便 及 时 地 进行 防 
御 性 修理 。 


e 企业 重点 客户 筛选 


许多 企业 家 纠结 的 事 是 , 在 企业 的 用 户 、 好 友 与 粉丝 中 , 哪些 是 最 有 价值 的 用 户 ? 有 了 大 
数据 , 或 许 这 一 切 都 可 以 更 加 有 事实 支撑 。 从 用 户 访问 的 各 种 网 站 可 以 判断 其 最 近 关心 的 东西 
是 否 与 你 的 企业 相关 ; 从 用 户 在 社交 媒体 上 所 发 布 的 各 类 内 容 及 与 他 人 互动 的 内 容 中 , 可 以 找 
出 千 丝 万 缕 的 信息 ， 利 用 某 种 规则 关联 及 综合 起 来 ， 就 可 以 帮助 企业 筛选 重点 的 目标 用 户 。 


@ 竞争 对 手 监测 与 品牌 传播 


竞争 对 手 在 干什么 是 许多 企业 想 了 解 的 , 即使 对 方 不 会 告诉 你 , 但 你 却 可 以 通过 大 数据 监 
测 分 析 得 知 。 品 牌 传播 的 有 效 性 亦 可 通过 大 数据 分 析 找 准 方向 。 例如, 可 以 进行 传播 趋势 分 析 、 
内 容 特 征 分 析 、 互 动用 户 分 析 、 正 负 情 绪 分 类 、 口 碑 品 类 分 析 、 产 品 属性 分 析 等 ， 可 以 通过 监 
测 掌握 竞争 对 手 的 传播 态势 。 


e 精准 营销 信息 推送 支撑 

精准 营销 总 在 被 许多 公司 提 及 , 但 是 真正 做 到 的 少 之 又 少 , 反而 是 垃圾 信息 泛滥 。 究 其 原 
FA, 主要 是 过 去 名 义 上 的 精准 营销 并 不 怎么 精准 , 因为 其 缺少 用 户 特征 数据 的 支撑 及 详细 准确 
的 分 析 。 相 对 而 言 ， 现 在 的 RTB (Real Time Bidding， 实 时 竞价 ) 广告 等 应 用 则 向 我 们 展示 了 
比 以 前 更 好 的 精准 性 ， 而 其 背后 靠 的 就 是 大 数据 支撑 。 

e 用 户 行为 与 特征 分 析 

只 要 积累 足够 的 用 户 数 据 , 就 能 分 析出 用 户 的 喜好 与 购买 习惯 ,甚至 做 到 “ 比 用户 更 了 解 
用 户 自己 ”。 有 了 这 一 点 , 才 是 许多 大 数据 营销 的 前 提 与 出 发 点 。 无 论 如 何 ， 那 些 过 去 将 “一 
切 以 客户 为 中 心 ” 作 为 口号 的 企业 可 以 想 想 , 过 去 你 们 真 的 能 及 时 、 全 面 地 了 解 客户 的 需求 与 
所 想 吗 ? 或 许 只 有 大 数据 时 代 这 个 问题 的 答案 才 更 明确 。 


e ”品牌 危机 监测 及 管理 支持 


新 媒体 时 代 ， 品 牌 危机 使 许多 企业 谈 虎 色 变 ， 然 而 大 数据 可 以 让 企业 提前 有 所 洞悉 。 在 危 
机 爆发 的 过 程 中 ,最 需要 的 是 跟踪 危机 传播 趋势 识别 重要 参与 人 员 , 方便 快速 应 对 。 大 数据 可 
以 采集 负面 定义 内 容 , 及 时 启动 危机 跟踪 和 报警 , 按照 人 群 社会 属性 分 析 聚 类 事件 过 程 中 的 观 
点 ,识别 关键 人 物 及 传播 路 径 ， 进 而 可 以 保护 企业 、 产 品 的 声誉 ， 抓 住 源 头 和 关键 节点 ,快速 
有 效 地 处 理 危机 。 





3.6.4 生态 化 


大 数据 时 代 将 催化 出 大 数据 生态 。 基 于 底层 的 技术 平台 ,上 层 开放 则 可 以 形成 丰富 的 生态 。 
通过 开放 式 的 平台 凝聚 行业 的 力量 , 为 更 多 的 企业 和 个 人 提供 大 数据 服务 。 大 数据 生态 表现 在 
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以 下 两 个 方面 。 
© ”数据 交换 /交易 平台 


人 工 智能 的 基石 就 是 数据 ， 作 为 人 工 智能 的 第 一 要 务 , 数据 是 最 重要 的 。 数 据 作为 生产 资 
料 ， 好 比 汽车 的 汽油 ， 没 有 汽油 ， 再 高 端的 汽车 也 无 法 运转 。 而 数据 的 来 源 往往 是 多 方面 的 ， 
未 来 一 个 企业 所 用 到 的 数据 往往 不 仅仅 是 自身 的 数据 ， 甚 至 是 多 个 渠道 交换 、 整 合 、 购 买 过 来 
的 数据 。 对 于 大 数据 商业 形态 , 数据 一 定 是 流动 的 , 数据 只 有 整合 关联 , 才能 发 挥 更 大 的 价值 。 
但 是 数据 要 实现 交换 、 交 易 ， 我 们 最 终 所 必须 解决 的 是 法 律 法 规 、 数 据 标 准 等 一 系列 问题 。 

@ 算法 经 济 /生态 

算法 是 人 工 智能 应 用 的 基石 , 是 大 数据 的 核心 价值 。 多 个 机 器 学 习 算 法 可 以 结合 起 来 成 为 
更 强大 的 算法 ， 从 而 更 好 地 分 析 数 据 ， 充 分 挖掘 数据 中 的 价值 。Gartner 认为 ， 无 可 避免 地 ， 
算法 经 济 将 创造 一 个 全 新 的 市 场 。 人们 可 以 对 各 种 算法 进行 买卖 , 为 当下 的 公司 汇聚 大 量 的 额 
外 收入 ,并 催生 出 全 新 一 代 的 专业 技术 初创 企业 。 想象 这 样 一 个 市 场 : 数 十 亿 的 算法 都 是 可 以 
买卖 的 , 每 一 个 算法 代表 的 是 一 种 软件 代码 ,能 解决 一 个 或 多 个 技术 难题 , 或 者 从 物 联网 的 指 
数 级 增长 中 创造 一 个 新 的 机 会 。 在 算法 经 济 中 , 对 于 前 沿 的 技术 项 目 , 无 论 是 先进 的 智能 助理 ， 
还 是 能 够 自动 计算 库存 的 无 人 机 ， 最 终 都 将 落实 成 为 实 实在 在 的 代码 ， 供 人 们 交易 和 使 用 。 

广义 的 算法 存在 于 大 数据 的 整个 闭环 之 中 ， 大 数据 平台 、ETL (数据 采集 、 数 据 清 洗 、 数 
据 脱 敏 等 ) 、 数 据 加 工 、 数 据 产品 等 每 一 个 层面 都 会 有 算法 支持 。 算 法 可 以 直接 交易 ， 也 可 以 
包装 成 产品 、 工 具 、 服 务 ， 甚 至 平台 来 交易 ， 最 终 形成 大 数据 生态 中 的 一 个 重要 组 成 部 分 。 人 
们 将 会 通过 产品 使 用 的 算法 来 评价 它 的 性 能 好 坏 。 企业 的 竞争 力也 不 仅仅 在 于 大 数据 , 还 要 有 
能 够 把 数据 转换 为 实际 应 用 的 算法 。 因 此 ，CEO 应 该 关注 公司 有 产权 的 算法 ， 而 不 仅仅 是 大 
数据 。 正 在 涌现 的 机 器 学 习 平台 可 凭借 “模型 作为 服务 ”的 方式 ， 托 管 预 训练 过 的 机 器 学 习 模 
型 ， 从 而 令 企业 能 够 更 容易 地 开启 机 器 学 习 , 快速 将 其 应 用 从 原型 转化 成 产品 。 企 业 接 入 并 使 
用 不 同 的 机 器 学 习 模 型 和 服务 以 提供 特定 功能 的 能 力 将 变 得 越 来 越 有 价值 。 

所 有 的 这 一 切 最 终 也 离 不 开 云 计算 , 数据 平台 天 然 就 是 基于 云 计算 来 实现 的 。 而 数据 交换 、 
算法 交易 则 需要 一 个 商店 ， 云 端 就 是 目前 最 好 的 商店 。 无 论 是 数据 的 互通 ,还 是 基于 云端 预 训 
练 、 托 管 的 机 器 学 习 模 型 ， 都 将 促使 每 个 公司 的 数据 产品 能 够 大 规模 地 利用 算法 智能 。 























3.7 大 数据 产业 


3.7.1 大 数据 产业 界定 


1990 年 以 来 ,在 摩尔 定律 的 推动 下 ,计算 存储 和 传输 数据 的 能 力 在 以 指数 级 的 速度 增长 ， 
每 吉 字 节 (GB) 存储 器 的 价格 每 年 下 降 40%。2000 年 以 来 ， 以 Hadoop 为 代表 的 分 布 式 存储 
和 计算 技术 迅猛 发 展 , 极 大 地 提升 了 数据 管理 能 力 , 互联 网 企业 对 海量 数据 的 挖掘 利用 大 获 成 
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功 ， 引 发 全 社会 开始 重新 审视 “数据 ”的 价值 ， 开 始 把 数据 当 作 一 种 独特 的 战略 资源 对 待 。 大 
数据 的 所 谓 3V 特征 〈 体 量 大 、 结 构 多 样 、 产 生 处 理 速度 快 ) 主要 是 从 以 下 角度 描述 的 。 

从 技术 视角 看 , 大 数据 代表 新 一 代数 据 管理 与 分 析 技术 。 传统 的 数据 管理 与 分 析 技术 以 结 
构 化 数据 为 管理 对 象 ， 在 小 数据 集 上 进行 分 析 ， 以 集中 式 架构 为 主 ， 成 本 高 晶 。 与 “贵族 化 ” 
的 数据 分 析 技 术 相 比 ， 源 于 互联 网 、 面 向 多 源 异 构 数据 、 在 超大 规模 数据 集 ( 拍 字 节 (PB) 
量 级 ) 上 进行 分 析 、 以 分 布 式 架构 为 主 的 新 一 代数 据 管理 技术 ,与 开源 软件 潮流 又 加 ,在 大 幅 
提高 处 理 效率 的 同时 数据 分 析 从 TH 到 T+0 甚至 实时 ) ， 成 百倍 地 降低 了 数据 应 用 成 本 。 

从 理念 视角 看 ， 大 数据 打开 了 一 种 全 新 的 思维 角度 。 其 一 是 “数据 驱动 ”， 即 经 营 管理 决 
策 可 以 自 下 而 上 地 由 数据 来 驱动 ， 甚 至 像 量 化 股票 交易 、 实 时 竞价 广告 等 场景 中 那样 ,可 以 由 
机 器 根据 数据 直接 决策 ， 其 二 是 “数据 闭环 ”， 观 察 互联 网 行业 大 数据 案例 ， 它 们 往往 能 够 构 
造 起 包括 数据 采集 、 建 模 分 析 、 效 果 评 估 到 反馈 修正 各 个 环节 在 内 的 完整 “数据 闭环 ”， 从 而 
不 断 地 自我 升级 ， 螺 旋 上 升 。 目 前 很 多 “大 数据 应 用 ”， 要 么 数据 量 不 够 大 ， 要 么 并 非 必须 使 
用 新 一 代 技 术 , 但 体现 了 数据 驱动 和 数据 闭环 的 思维 , 改进 了 生产 管理 效率 , 这 是 大 数据 思维 
理念 应 用 的 体现 。 

大 数据 本 身 既 能 形成 新 兴 产 业 ， 也 能 推动 其 他 产业 发 展 。 当 前 ,国内 外 缺乏 对 大 数据 产业 
的 公认 界定 。 我 们 认为 ， 大 数据 产业 可 以 从 狭义 和 广义 两 个 层次 界定 。 从 狭义 看 ， 当 前 全 球 转 
绕 大 数据 采集 、 存 储 、 管 理 和 挖掘 ， 正 在 逐渐 形成 一 个 “小 生态 ”， 即 大 数据 核心 产业 。 大 数 
据 核心 产业 为 全 社会 大 数据 应 用 提供 数据 资源 、 产 品 工具 和 应 用 服务 , 支撑 各 个 领域 的 大 数据 
应 用 ， 是 大 数据 在 各 个 领域 应 用 的 基石 ， 如 图 3-19 所 示 。 应 该 注意 到 ， 狭 义 大 数据 产业 仍然 
围绕 信息 的 采集 加 工 构建 ， 属 于 信息 产业 的 一 部 分 。 
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图 3-19 大 数据 产业 


数据 资源 部 分 负责 原始 数据 的 供给 和 交换 , 根据 数据 来 源 的 不 同 , 可 以 细 分 为 数据 资源 提 
供 者 和 数据 交易 平台 两 种 角色 。 数 据 基础 能 力 部 分 负责 与 数据 生产 加 工 相关 的 基础 设施 和 技术 
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要 素 供 应 , 根据 数据 加 工 和 价值 提升 的 生产 流程 ,数据 基础 能 力 部 分 主要 包括 数据 存储 、 数 据 
处 理 和 数据 库 〈 数 据 管理 ) 等 多 个 角色 。 数 据 分 析 / 可 视 化 部 分 负责 数据 隐 含 价值 的 挖掘 、 数 
据 关联 分 析 和 可 视 化 展现 等 ， 既 包括 传统 意义 上 的 BI、 可 视 化 和 通用 数据 分 析 工 具 ， 也 包括 
面向 非 结 构 化 数据 提供 的 语音 、 图 像 等 媒体 识别 服务 。 数 据 应 用 部 分 根据 数据 分 析 和 加 工 的 结 
果 ， 面 向 电 商 、 金 融 、 交 通 、 气 象 、 安 全 等 细 分 行业 提供 精准 营销 、 信 用 评估 、 出 行 引导 、 信 
息 防 护 等 企业 或 公众 服务 。 

目前 大 数据 产业 的 统计 口径 尚未 建立 。 对 于 我 国 大 数据 产业 的 规模 , 各 个 研究 机 构 均 采 取 
间接 方法 估算 。 根 据 多 个 咨询 机 构 的 预测 ，2018 年 我 国 大 数据 市 场 规模 将 达到 280 亿 元 ， 未 
来 5 年 (2018-2022). 年 均 复合 增长 率 约 为 27.29%，2022 年 将 达到 735 亿 元 。 

从 广义 看 ， 大 数据 具有 通用 技术 的 属性 ， 能 够 提升 运作 效率 ， 提 高 决策 水 平 ， 从 而 形成 由 
数据 驱动 经 济 发 展 的 “大 生态 ”， 即 广义 大 数据 产业 。 广义 大 数据 产业 包含 大 数据 在 各 个 领域 
的 应 用 ， 已 经 超出 了 信息 产业 的 范畴 。 美 国 麦 肯 锡 预计 ， 到 2020 年 ， 美 国 大 数据 应 用 带 来 的 
增加 值 将 占 2020 年 GDP 的 2%~4%。 中 国信 息 通 信 研 究 院 预计 ， 到 2020 年 ,大 数据 将 带动 中 
E| GDP 增长 2.8%~4.2%。 总 之 ， 在 智能 化 技术 发 展 和 数据 价值 不 断 提升 的 数据 资产 化 共同 推 
动 下 , 数字 经 济 是 从 业务 数据 化 到 数据 业务 化 的 不 断 循环 渐进 的 过 程 , 这 也 就 意味 着 数据 与 业 
务 的 结合 仍 是 大 数据 时 代 新 技术 应 用 的 核心 。 


3.7.2 ”大 数据 技术 发 展 的 推动 力 
1. 社交 网 络 和 物 联网 技术 拓展 了 数据 采集 技术 渠道 


经 过 行业 信息 化 建设 ， 医 疗 、 交 通 、 金 融 等 领域 已 经 积累 了 许多 内 部 数据 ， 构 成 大 数据 资 
源 的 “存量 ”; 而 移动 互联 网 和 物 联网 的 发 展 ， 大 大 丰富 了 大 数据 的 采集 渠道 ， 来 自 外 部 社交 
网 络 、 可 穿戴 设备 、 车 联网 、 物 联网 及 政府 公开 信息 平台 的 数据 将 成 为 大 数据 增 量 数 据 资源 的 
主体 。 

当前 , 移动 互联 网 的 深度 普及 为 大 数据 应 用 提供 了 丰富 的 数据 源 。 根据 中 国 互 联网 络 信息 
中 心 (CNNIC) 的 报告 ， 截 至 2017 年 12 月 ， 我 国 网 民 规模 达 7.72 亿 ， 普 及 率 达 到 55.8%, 
超过 全 球 平均 水 平 (51.7%) 4.1 个 百分点 。 全 年 共计 新 增 网 民 4074 万 人 ， 增 长 率 为 5.6%。 我 
国手 机 网 民 规 模 达 7.53 亿 , 网 民 中 使 用 手机 上 网 的 人 群 占 比 由 2016 年 的 95.1% 提 升 至 97.5%。 
线 下 企业 通过 与 互联 网 企业 的 合作 ， 或 者 利用 开放 的 应 用 编程 接口 CAPT) RAER, EA 
采集 到 丰富 的 网 络 数据 ， 可 以 作为 内 容 数据 的 有 效 补 充 。 

另外 ， 快 速 发 展 的 物 联网 也 将 成 为 越 来 越 重要 的 大 数据 资源 提供 者 。 相 对 于 现 有 互联 网 数 
据 杂 乱 无 章 和 价值 密度 低 的 特点 ， 通 过 可 穿戴 、 车 联网 等 多 种 数据 采集 终端 定向 采集 的 数据 资 
源 更 具 利 用 价值 。 例 如 ， 智 能 化 的 可 穿戴 设备 经 过 几 年 的 发 展 ， 智 能 手 环 、 腕 带 、 手 表 等 可 穿 
戴 设 备 正在 走向 成 熟 ， 智 能 自行 车 等 设备 层出不穷 。 根 据 IDC 公司 预计 ， 到 2020 年 之 前 , 可 穿 
戴 设备 市 场 的 年 复合 增长 率 将 为 20.3%， 而 2020 年 将 达到 2.136 亿 台 。 可 穿戴 设备 可 以 7X24 
小 时 不 间断 地 收集 个 人 健康 数据 ， 在 医疗 保健 领域 有 广阔 的 应 用 前 景 , 一 旦 技术 成 熟 ， 设备 测 
量 精度 达到 医用 要 求 ， 电 池 续 航 能 力也 有 显著 增强 , 就 很 可 能 会 进入 大 规模 应 用 阶段 ， 从 而 成 
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为 重要 的 大 数据 来 源 。 例 如 ， 车 联网 已 经 进入 快速 成 长 期 ， 据 国外 公司 预计 ，2016 年 前 ， 车 
联网 市 场 渗透 率 将 达到 19%， 在 未 来 5 年 内 迎 来 发 展 黄金 期 ，2020 年 将 达到 49%. 

不 过 ,值得 注意 的 是 ， 即 便 外 部 数据 越 来 越 丰富 ,但 可 获取 性 还 不 够 高 ， 一 方面 受 目 前 技 
术 水 平 所 限 , 车 联网 、 可 穿戴 设备 等 数据 采集 精度 、 数 据 清洗 技术 和 数据 质量 还 达 不 到 实用 要 
求 ; 另 一 方面 , 由 于 体制 机 制 原 因 ， 导 致 行业 和 区 域 上 的 条 块 分 割 、 数 据 割 据 和 孤岛 普遍 存在 ， 
跨 企 业 、 跨 行业 数据 资源 的 融合 仍然 面临 诸多 障碍 。 根据 中 国信 息 通信 研究 院 对 国内 800 多 家 
企业 的 调研 来 看 ， 有 50% 以 上 的 企业 把 内 部 业务 平台 数据 、 客 户 数据 和 管理 平台 数据 作为 大 
数据 应 用 最 主要 的 数据 来 源 。 企业 内 部 数据 仍 是 大 数据 的 主要 来 源 , 但 对 外 部 数据 的 需求 日 益 
强烈 。 当 前 ， 有 32% 的 企业 通过 外 部 购买 获得 数据 ， 只 有 18% 的 企业 使 用 政府 开放 的 数据 。 
如 何 促进 大 数据 资源 建设 , 提高 数据 质量 , 推动 跨 界 融 合流 通 ,是 推动 大 数据 应 用 进一步 发 展 
的 关键 问题 之 一 。 

2. 分 布 式 存储 和 计算 技术 夯实 了 大 数据 处 理 的 技术 基础 


大 数据 存储 和 计算 技术 是 整个 大 数据 系统 的 基础 。 在 存储 方面 ，2000 年 左右 ， 谷 歌 等 提 
出 的 文件 系统 以 及 随后 的 Hadoop 分 布 式 文件 系统 HDFS 黄 定 了 大 数据 存储 技术 的 基础 。 与 传 
统 系统 相 比 , GFS/HDFS 将 计算 和 存储 节点 在 物理 上 结合 在 一 起 ,从 而 避免 在 数据 密集 计算 中 
易 形成 的 VO 吞吐 量 的 制约 ， 同 时 这 类 分 布 式 存储 系统 的 文件 系统 也 采用 了 分 布 式 架构 ， 能 
达到 较 高 的 并 发 访问 能 力 。 

在 计算 方面 , 谷歌 在 2004 年 公开 的 MapReduce 分 布 式 并 行 计算 技术 是 新 型 分 布 式 计算 技 
术 的 代表 。 一 个 MapReduce 系统 由 廉价 的 通用 服务 器 构成 ， 通 过 添加 服务 器 节点 可 线性 扩展 
系统 的 总 处 理 能 力 ， 在 成 本 和 可 扩展 性 上 都 有 巨大 的 优势 。 谷 歌 的 MapReduce 是 其 内 部 网 页 
索引 、 广 告 等 核心 系统 的 基础 。 之 后 出 现 的 Apache Hadoop MapReduce 是 谷歌 MapReduce 的 
开源 实现 ， 目 前 已 经 成 为 应 用 最 广泛 的 大 数据 计算 软件 平台 。 

MapReduce 架构 能 够 满足 “ 先 存 储 后 处 理 ” 的 离线 批量 计算 需求 ， 但 也 存在 局 限 性 ， 最 
大 的 问题 是 时 延 过 长 ,难以 适用 于 机 器 学 习 迭 代 、 流 处 理 等 实时 计算 任务 , 也 不 适合 针对 大 规 
模 图 数据 等 特定 数据 结构 进行 快速 运算 。 为 此 ， 业 界 在 MapReduce 的 基础 上 提出 了 多 种 不 同 
的 并 行 计算 技术 路 线 。 例 如 Storm 系统 是 针对 “ 边 到 达 边 计算 ”的 实时 流 计算 框架 ,可 在 一 个 
时 间 窗 口上 对 数据 流 进行 在 线 实时 分 析 ， 已 经 在 实时 广告 、 微 博 等 系统 中 得 到 应 用 。 此 外 ,还 
出 现 了 将 MapReduce 内 存 化 以 提高 实时 性 的 框架 , 针对 大 规模 图 数据 进行 优化 的 Pregel 系统 ， 
等 等 。 

以 Hadoop 为 代表 的 开源 软件 大 幅度 降低 数据 的 存储 与 计算 的 成 本 。 传 统 数据 存储 和 分 析 
的 成 本 约 为 3 万 美元 /TB， 而 采用 Hadoop 技术 ， 成 本 可 以 降 到 300 美元 ~1000 美元 /TB。 新 一 
代 计 算 平台 Spark 进一步 把 Hadoop 性 能 提升 了 30 多 倍 ， 性 能 越 来 越 高 ， 技 术 门 槛 越 来 越 低 。 
目前 ， 开 源 Hadoop 和 Spark 已 经 形成 了 比较 成 熟 的 产品 供应 体系 ， 基 本 上 可 以 满足 大 部 分 企 
业 建 设 大 数据 存储 和 分 析 平 台 的 需求 ， 为 企业 提供 了 低 成 本 解决 方案 。 
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3. 深度 神经 网 络 等 新 兴 技 术 开辟 大 数据 分 析 技 术 的 新 时 代 


数据 分 析 技 术 一 般 分 为 联机 分 析 处 理 和 数据 挖掘 两 大 类 。 OLAP 技术 一 般 基于 用 户 的 一 系 
列 假设 , 在 多 维 数据 集 上 进行 交互 式 的 数据 集 查询 、 关 联 等 操作 来 验证 这 些 假设 , 代表 了 演绎 
推理 的 思想 方法 。 

数据 挖掘 技术 一 般 是 在 海量 数据 中 主动 寻找 模型 , 自动 发 展 隐藏 在 数据 中 的 模式 , 代表 了 
归纳 的 思想 方法 。 传 统 的 数据 挖掘 算法 主要 有 以 下 几 种 。 


COD 聚 类 ， 又 称 群 分 析 ， 是 研究 〈 样 品 或 指标 ) 分 类 问题 的 一 种 统计 分 析 方法 ， 针 对 数 
据 的 相似 性 和 差异 性 将 一 组 数据 分 为 几 个 类 别 。 属 于 同一 类 别 的 数据 间 的 相似 性 很 大 , 但 不 同 
类 别 之 间 的 数据 的 相似 性 很 小 , 跨 类 的 数据 关联 性 很 低 。 企 业 通 过 使 用 聚 类 分 析 算法 可 以 进行 
客户 分 群 , 在 不 明确 客户 群 行为 特征 的 情况 下 对 客户 数据 从 不 同 维度 进行 分 群 ， 再 对 分 群 客户 
进行 特征 提取 和 分 析 ， 从 而 抓 住 客户 的 特点 推荐 相应 的 产品 和 服务 。 

(2) 分 类 ， 类 似 于 聚 类 ， 但 是 目的 不 同 ， 分 类 可 以 使 用 聚 类 预先 生成 的 模型 ， 也 可 以 通 
过 经 验 数据 找 出 一 组 数据 对 象 的 共同 点 , 将 数据 划分 成 不 同 的 类 , 其 目的 是 通过 分 类 模型 将 数 
据 项 映射 到 某 个 给 定 的 类 别 中 ， 代 表 算 法 是 CART (分 类 与 回归 树 ) 。 企 业 可 以 将 用 户 、 产 
品 、 服 务 等 各 业务 数据 进行 分 类 ， 构 建 分 类 模型 ， 再 对 新 的 数据 进行 预测 分 析 ， 使 之 归于 已 有 
类 中 。 分 类 算法 比较 成 熟 ， 分 类 准确 率 也 比较 高 ， 对 于 客户 的 精准 定位 、 营 销 和 服务 有 着 非常 
好 的 预测 能 力 ， 帮 助 企业 进行 决策 。 

G) 回归 ， 反 映 了 数据 的 属性 值 的 特征 ， 通 过 函数 表达 数据 映射 的 关系 来 发 现 属性 值 之 
间 的 一 览 关 系 。 它 可 以 应 用 到 对 数据 序列 的 预测 和 相关 关系 的 研究 中 。 企业 可 以 利用 回归 模型 
对 市 场 销售 情况 进行 分 析 和 预测 ， 及 时 做 出 对 应 策略 的 调整 。 在 风险 防范 、 反 欺诈 等 方面 也 可 
以 通过 回归 模型 进行 预警 。 

传统 的 数据 分 析 方法 ， 无 论 是 传统 的 OLAP 技术 还 是 数据 挖掘 技术 ， 都 难以 应 付 大 数据 
的 挑战 。 首 先是 执行 效率 低 。 传 统 数据 挖掘 技术 都 是 基于 集中 式 的 底层 软件 架构 开发 的 ， 难 以 
并 行 化 ， 因 而 在 处 理 太 字 节 (TB) 级 以 上 的 数据 时 效率 低 。 其 次 是 数据 分 析 精 度 难 以 随 着 数 
据 量 的 提升 而 得 到 改进 , 特别 是 难以 应 对 非 结 构 化 数据 。 在 人 类 全 部 数字 化 的 数据 中 , 仅 有 非 
常 小 的 一 部 分 〈 约 占 总 数据 量 的 1%) 数值 型 数据 得 到 了 深入 分 析 和 挖掘 (如 回归 、 分 类 、 聚 
类 ) ,大 型 互联 网 企业 对 网 页 索引 、 社 交 数 据 等 半 结 构 化 数据 进行 了 浅 层 分 析 ， 占 总 量 近 60% 
的 语音 、 图 片 、 视 频 等 非 结构 化 数据 还 难以 进行 有 效 的 分 析 。 

所 以 , 大 数据 分 析 技 术 的 发 展 需要 在 两 个 方面 取得 突破 , 一 是 对 体 量 庞大 的 结构 化 和 半 结 
构 化 数据 进行 高 效率 的 深度 分 析 , 挖掘 隐 性 知识 , 如 从 自然 语言 构成 的 文本 网 页 中 理解 和 识别 
语义 、 情 感 、 意 图 等 ; 二 是 对 非 结构 化 数据 进行 分 析 ， 将 海量 复杂 多 源 的 语音 、 图 像 和 视频 数 
据 转化 为 机 器 可 识别 的 、 具 有 明确 语义 的 信息 ， 进 而 从 中 提取 有 用 的 知识 。 目 前 来 看 ， 以 深度 
神经 网 络 等 新 兴 技 术 为 代表 的 大 数据 分 析 技 术 已 经 得 到 一 定 发 展 。 

神经 网 络 是 一 种 先进 的 人 工 智能 技术 ， 具 有 自行 处 理 、 分 布 存储 和 高 度 容 错 等 特性 ,非常 
适合 处 理 非 线性 的 以 及 模糊 、 不 完整 、 不 严密 的 知识 或 数据 , 十 分 适合 解决 大 数据 挖掘 的 问题 。 
典型 的 神经 网 络 模型 主要 分 为 三 大 类 :第 一 类 是 用 于 分 类 预测 和 模式 识别 的 前 馈 式 神经 网 络 模 
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型 ， 其 主要 代表 为 函数 型 网 络 、 感 知 机 ; 第 二 类 是 用 于 联想 记忆 和 优化 算法 的 反馈 式 神经 网 络 
模型 ， 以 Hopfield 的 离散 模型 和 连续 模型 为 代表 。 第 三 类 是 用 于 聚 类 的 自 组 织 映射 方法 ， 以 
ART 模型 为 代表 。 不 过 ， 虽 然 神经 网 络 有 多 种 模型 及 算法 ， 但 在 特定 领域 的 数据 挖掘 中 使 用 
何 种 模型 及 算法 并 没有 统一 的 规则 ， 而 且 人 们 很 难 理解 网 络 的 学 习 及 决策 过 程 。 

深度 学 习 是 近年 来 机 器 学 习 领域 最 令 人 瞩目 的 方向 。 自 2006 年 深度 学 习 界 泰 斗 Geoffrey 
Hinton 在 《Science》 和 杂志 上 发 表 DeepBelief Networks 的 论文 后 ， 激 活 了 神经 网 络 的 研究 ， 开 
启 了 深度 神经 网 络 的 新 时 代 。 学 术 界 和 工业 界 对 深度 学 习 热 情 高 涨 ， 并 逐渐 在 语音 识别 、 图 像 
识别 、 自 然 语 言 处 理 等 领域 获得 突破 性 进展 ， 深 度 学 习 在 语音 识别 领域 的 准确 率 获得 了 
20%~30% 的 提升 ,突破 了 近 十 年 的 瓶颈 。2012 年 ， 图 像 识别 领域 在 ImageNet 图 像 分 类 竞赛 中 
取得 了 85% 的 Top5 准确 率 ， 相 比 前 一 年 74% 的 准确 率 有 里 程 碑 式 的 提升 ， 并 进一步 在 2013 
年 将 准确 率 提高 到 了 89%。 目 前 ， 谷 歌 、Facebook、 微 软 、IBM 等 国际 巨头 ， 以 及 国内 的 百 
度 、 阿 里 巴巴 、 腾讯 等 互联 网 巨头 争 相 布局 深度 学 习 。 由 于 神经 网 络 算法 的 结构 和 流程 特性 非 
常 适合 大 数据 分 布 式 处 理 平台 进行 计算 , 通过 神经 网 络 领域 的 各 种 分 析 算 法 的 实现 和 应 用 , ZS 
司 可 以 实现 对 多 样 化 的 分 析 ， 并 在 产品 创新 、 客 户 服务 、 营 销 等 方面 取得 创新 性 进展 。 

随 着 互联 网 与 传统 行业 融合 程度 日 益 加 深 ， 对 于 Web 数据 的 挖掘 和 分 析 成 为 需求 分 析 和 
市 场 预测 的 重要 手段 。Web 数据 挖掘 是 一 项 综合 性 的 技术 ， 可 以 从 文档 结构 和 使 用 集合 中 发 
现 隐藏 的 输入 到 输出 的 映射 过 程 。 目 前 研究 和 应 用 比较 多 的 是 PageRank 算法 。PageRank 是 
Google 算法 的 重要 内 容 , 于 2001 年 9 月 被 授予 美国 专利 ， 以 谷歌 创始 人 之 一 拉 里 。 佩 奇 命名 。 
PageRank 根据 网 站 外 部 链接 和 内 部 链接 的 数量 和 质量 衡量 网 站 的 价值 。 这 个 概念 的 灵感 来 自 
于 学 术 研究 中 的 一 种 现象 , 即 一 篇 论文 被 引述 的 频率 越 高 , 一般 会 判断 这 篇 论文 的 权威 性 和 质 
量 越 高 。 在 互联 网 场景 中 ,每 个 到 页 面 的 链接 都 是 对 该 页 面 的 一 次 投票 ， 被 链接 的 越 多 ， 就 意 
味 着 被 其 他 网 站 投票 越 多 。 这 就 是 所 谓 的 链接 流行 度 , 可 以 衡量 多 少 人 愿意 将 他 们 的 网 站 和 你 
的 网 站 挂钩。 

需要 指出 的 是 , 数据 挖掘 与 分 析 的 行业 与 企业 特点 强 , 除 了 一 些 最 基本 的 数据 分 析 工 具 外 ， 
目前 还 缺少 针对 性 的 、 一 般 化 的 建 模 与 分 析 工 具 。 各 个 行业 与 企业 需要 根据 自身 业务 构建 特定 
的 数据 模型 。 数 据 分 析 模 型 构建 的 能 力 强 弱 成 为 不 同 企业 在 大 数据 竞争 中 取胜 的 关键 。 


3.773 ”重点 行业 的 大 数据 应 用 


传统 的 数据 应 用 主要 集中 在 对 业务 数据 的 统计 分 析 , 作为 系统 或 企业 的 辅助 支撑 , 应 用 范 
围 以 系统 内 部 或 企业 内 部 为 主 , 例如 各 类 统计 报表 、 展 示 图 表 等 。 伴随 着 各 种 随身 设备 、 物 联 
网 和 云 计算 、 云 存储 等 技术 的 发 展 ,数据 内 容 和 数据 格式 多 样 化 ,数据 颗粒 度 也 全 来 钝 细 ， 随 
之 出 现 了 分 布 式 存储 、 分 布 式 计算 、 流 处 理 等 大 数据 技术 , 各 行业 基于 多 种 甚至 跨行 业 的 数据 
源 相互 关 联 探索 更 多 的 应 用 场景 ,同时 更 注重 面向 个 体 的 决策 和 应 用 的 时 效 性 。 因此 ， 大 数据 
的 数据 形态 、 处 理 技术 、 应 用 形式 构成 了 区 别 于 传统 数据 应 用 的 大 数据 应 用 。 

一 方面 ， 大 数据 在 各 个 领域 的 应 用 持续 升温 ; 另 一 方面 ,大 数据 的 效益 尚未 充分 验证 。 大 
多 数 的 大 数据 系统 尚 处 于 早期 部 署 阶段 , 因此 它们 的 投资 回报 还 未 得 到 充分 验证 。 大 数据 前 景 
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很 美好 ， 同 时 也 可 能 存在 “忽悠 ”出 来 的 “泡沫 ”成 分 。 整 体 来 看 ， 大 数据 应 用 尚 处 于 从 热点 
行业 领域 向 传统 领域 渗透 的 阶段 中 国信 息 通 信 研 究 院 的 调查 显示 , 大 数据 应 用 水 平 较 高 的 行 
业主 要 分 布 在 互联 网 、 电 信 、 金 融 行业 ， 一 些 传统 行业 的 大 数据 应 用 发 展 较为 缓慢 。 

1. 电信 和 领域 

电信 行业 掌握 体 量 巨大 的 数据 资源 , 单个 运营 商 的 手机 用 户 每 天 产生 的 话 单 记 录 、 信 令 数 
据 、 上 网 日 志 等 数据 就 可 以 达到 拍 字 节 (PB) 级 规模 。 电 信行 业 利用 IT 技术 采集 数据 改善 网 
络 运营 、 提 供 客户 服务 已 有 数 十 年 的 历史 ， 而 传统 处 理 技术 下 ,运营 商 实际 上 只 能 用 到 其 中 百 
分 之 一 左右 的 数据 。 

大 数据 对 于 电信 运营 商 而 言 , 一 是 意味 着 利用 廉价 、 便 捷 的 大 数据 技术 提升 其 传统 的 数据 
处 理 能 力 ， 聚 合 更 多 的 数据 提升 洞察 能 力 。 例 如 ， 美 国 T-Mobile 借助 大 数据 加 快 了 诊断 网 络 
潜在 问题 的 效率 , 改善 服务 水 平 ,为 客户 提供 了 更 好 的 体验 , 获得 了 更 多 的 客户 以 及 更 高 的 业 
务 增 长 。 中 国 移动 、 德 国电 信 利用 大 数据 技术 加 大 对 历史 数据 的 分 析 , 动态 优化 调整 网 络 资源 
配置 ， 大 幅 提 高 无 线 网 络 的 运行 效率 。T-Mobile 通过 集成 数据 综合 分 析 客 户 流失 的 原因 ， 在 
一 个 季度 内 将 客户 流失 率 减 半 。SK 电讯 成 立 SK Planet 公司 专门 处 理 与 大 数据 相关 的 业务 ， 
通过 分 析 客 户 的 使 用 行为 防止 客户 流失 。 中 国联 通 利用 大 数据 技术 对 全 国 3G/4G 用 户 进行 精 
准 画像 ， 形 成 大 量 有 价值 的 标签 数据 ， 为 客户 服务 和 市 场 营销 提供 了 有 力 支 持 。 中 国 移动 通过 
对 消费 、 通 话 、 位 置 、 浏 览 、 使 用 和 交往 圈 等 数据 的 分 析 ， 利 用 各 种 联系 记录 发 现 各 种 圈子 ， 
分 析 影响 力 及 关键 人 员 , 用 来 进行 家 庭 客户 、 政 企 客户 和 关键 客户 的 识别 ， 以 实现 主动 营销 和 
客户 维系 。 

二 是 提高 数据 意识 , 寻求 合适 的 商业 模式 , 尝试 数据 价值 的 外 部 变现 。 主 要 有 数据 即 服 务 

(Data-as-a-Service, DaaS) 和 分 析 即 服务 (Analytics-as-a-Service, AaaS) 两 种 模式 ， 数 据 即 
服务 模式 往往 通过 开放 数据 或 开放 API 的 方式 直接 向 外 出 售 脱 敏 后 的 数据 ， 分析 即 服务 模式 
往往 与 第 三 方 公司 合作 ,利用 脱 敏 后 的 (自身 或 整合 外 部 ) 数据 资源 为 政府 、 企 业 或 行业 客户 
提供 通用 信息 、 数 据 建 模 、 策 略 分 析 等 多 种 形式 的 信息 和 服务 ， 以 创造 外 部 收益 ， 实 现 数 据 资 

数据 即 服务 方面 ， AT&T 将 客户 在 WiFi 网 络 中 的 地 理 位 置 、 网 络 浏览 历史 记录 以 及 使 用 
的 应 用 等 数据 销售 给 广告 公司 获取 可 观 收益 ; 英国 电信 基于 安全 数据 分 析 服务 Assure 
Analytics， 帮 助 企 业 收集 、 管 理 和 评估 大 数据 集 ， 将 这 些 数据 通过 可 视 化 的 方式 呈现 给 企业 ， 
帮助 企业 改进 决策 ; 德国 电信 和 沃达丰 主要 尝试 通过 开放 API， 向 数据 挖掘 公司 等 合作 方 提供 
部 分 用 户 匿 名 的 地 理 位置 数 据 ， 以 掌握 人 群 出 行规 律 ， 有 效 地 与 一 些 LBS 应 用 服务 对 接 。 限 
于 国内 对 数据 交易 流通 方面 缺乏 明确 规定 ， 国 内 运营 商 很 少 尝试 数据 即 服务 模式 。 

分 析 即 服务 方面 ， 西 班 牙 电信 成 立 了 动态 洞察 部 门 Dynamic Insights 开展 大 数据 业务 ， 与 
市 场 研究 机 构 Gfk 进行 合作 ， 在 英国 、 巴 西 推出 名 为 智慧 足迹 的 创新 产品 ， 该 产品 基于 完全 
匿名 和 聚合 的 移动 网 络 数据 ,可 对 某 个 时 段 、 某 个 地 点 人 流量 的 关键 影响 因素 进行 分 析 ， 并 将 
洞察 结果 面向 政 企 客户 提供 ; Verizon 成 立 精 准 营销 部 门 (Precision Marketing Division) , $2 
供 精 准 营 销 洞察 、 精 准 营 销 、 移 动 商务 等 服务 , 包括 联合 第 三 方 机 构 对 其 用 户 群 进行 大 数据 分 
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析 ， 再 将 有 价值 的 信息 提供 给 政府 或 企业 获取 额外 价值 ; 中 国电 信 在 大 数据 RTB 精准 广告 业 
务 〈 根 据 客户 行为 和 位 置 分 析 进 行商 铺 选 址 和 实施 营销 ) 、 景 区 流动 人 口 监测 业务 、 基 于 客户 
行为 的 中 小 微 企业 通用 信用 评价 等 方面 均 有 尝试 ， 且 成 效 显著 ， 借 助 对 不 同行 业 、 不 同类 型 企 
业 的 行为 数据 分 析 ， 中 国电 信 的 “ 贷 189” 平 台 ， 一 个 月 吸引 了 中 小 企业 580 家 、 金 融 机 构 
24 家 ， 订 单 成 交 额 达 3368 万 元 。 中 国 移动 和 中 国联 通 也 与 第 三 方 合作 ， 开 展 智慧 旅游 、 智 能 
交通 、 智 慧 城市 等 项 目 ， 探 索 数据 外 部 变现 的 新 型 商业 模式 ， 寻 找 新 的 业务 增长 点 。 


2. 金融 领域 


金融 行业 是 信息 产业 之 外 大 数据 的 又 一 重要 应 用 领域 ， 大 数据 在 金融 三 大 业务 一 一 银行 、 
保险 和 证 券 中 均 具有 较为 广阔 的 应 用 前 景 。 总 体 来 说 , 金融 行业 的 主要 业务 应 用 包括 企业 内 外 
部 的 风险 管理 、 信 用 评估 、 借 贷 、 保 险 、 理 财 、 证 券 分 析 等 ， 都 可 以 通过 获取 、 关 联 和 分 析 更 
多 维度 、 更 深层 次 的 数据 , 并 通过 不 断 发 展 的 大 数据 处 理 技术 得 以 更 好 、 更 快 、 更 准确 的 实现 ， 
从 而 使 得 原来 不 可 担保 的 信贷 可 以 担保 , 不 可 保险 的 风险 可 以 保险 , 不 可 预测 的 证 券 行情 可 以 
预测 。 

利用 大 数据 可 以 提升 金融 企业 内 部 的 数据 分 析 能 力 。 中 信和 银行 信用 卡 中 心 从 2010 年 开始 
引入 大 数据 分 析 解 决 方案 ,为 企业 中 心 提供 了 统一 的 客户 视图 。 借 助 客户 统一 视图 可 以 从 交易 、 
服务 、 风 险 、 权 益 等 多 个 层面 获取 和 分 析 数 据 ， 对 客户 按照 低 、 中 、 高 价值 来 进行 分 类 ， 根据 
银行 整体 经 营 策略 积极 地 提供 相应 的 个 性 化 服务 ， 在 降低 成 本 的 同时 大 幅 提升 精准 营销 能 力 。 
更 多 的 金融 企业 利用 大 数据 技术 整合 来 自 互联 网 等 渠道 的 更 多 的 外 部 数据 。 

淘宝 网 的 “阿里 小 贷 ” 依 托 阿里 巴巴 (B2B) 、 淘 宝 、 支 付 宝 等 平台 数据 ， 海 量 的 交易 数 
据 在 阿里 的 平台 上 运行 , 阿里 通过 对 商户 最 近 100 天 的 数据 分 析 , 准确 地 把 握 商 户 可 能 存在 的 
资金 问题 。 美 国 的 Lending Club 通过 获取 eBay 等 公司 的 网 店 店主 的 销售 记录 、 信 用 记录 、 顾 
客流 量 、 评论、 商品 价格 和 存货 等 信息 , 以 及 他 们 在 Facebook 和 Twitter 上 与 客户 的 互动 信息 ， 
借助 数据 挖掘 技术 , 把 这 些 店 主 分 成 不 同 的 风险 等 级 , 以 此 来 确定 提供 贷款 金额 数量 与 贷款 利 
率 的 水 平 。 

众 安保 险 不 断 改 进 其 数据 分 析 模 型 和 挖掘 手段 , 构建 了 强大 的 大 数据 能 力 , 推出 了 针对 高 
频 小 额 事件 的 运费 险 。 国 内 一 款 互联 网 车 险 产 品 利用 手机 获取 车 主 驾 驶 行为 的 数据 , 结合 车 型 
因子 、 违 章 历史 数据 、 个 人 信用 数据 等 维度 信息 ， 对 车 主 安全 行为 画像 ， 从 而 进行 风险 定价 。 
IBM 使 用 大 数据 信息 技术 成 功 开 发 了 “经 济 指标 预测 系统 ”， 可 通过 统计 分 析 新 闻 中 出 现 的 
单词 等 信息 来 预测 股价 等 走势 。 另外, 英美 甚至 国内 都 有 基于 社交 网 络 的 证 券 投资 的 探索 , 根 
据 从 Twitter、 微 博 等 社交 网 络 数据 内 容 感 知 的 市 场 情 绪 来 进行 投资 。 

3. 政务 领域 

大 数据 的 政务 应 用 获得 了 世界 各 国政 府 的 日 益 重 视 。 美 国 2012 年 启动 了 “大 数据 研究 和 
发 展 计划 ”, 日 本 2013 年 正式 公布 以 大 数据 为 核心 的 新 IT 国家 战略 ， 英 国政 府 通过 高 效 地 使 
用 公共 大 数据 技术 每 年 可 以 节省 330 亿 英镑 , 相当 于 英国 人 每 人 每 年 节省 500 英镑 。 我 国政 府 
也 非常 重视 利用 大 数据 提升 国家 治理 能 力 。 国 务 院 关于 印发 促进 大 数据 发 展 行动 纲要 的 通知 》 
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提出 “大 数据 成 为 提升 政府 治理 能 力 的 新 途径 ”， 要 “打造 精准 治理 、 多 方 协作 的 社会 治理 新 
模式 ”。 

首先 ， 大 数据 有 助 于 提升 政府 提供 的 公共 产品 和 服务 。 一 方面 ， 基 于 政务 数据 共享 互通 ， 
实现 政务 服务 一 号 认证 〈 身 份 认 证 号 ) 、 一 窗 申请 (政务 服务 大 厅 ) 、 一 网 办 事 〈 联 网 办 事 ) ， 
大 大 简化 了 办 事 手 续 。 另 一 方面 ， 通 过 建设 医疗 、 社 保 、 教 育 、 交 通 等 民生 事业 大 数据 平台 ， 
有 助 于 提升 民生 服务 , 同时 引导 鼓励 企业 和 社会 机 构 开 展 创新 应 用 研究 , 深入 发 掘 公 共 服务 数 
据 ， 有 助 于 激发 社会 活力 、 促 进 大 数据 应 用 市 场 化 服务 。 

其 次 ,大 数据 支持 宏观 调控 科学 化 。 政 府 通过 对 各 部 门 、 社 会 企业 的 经 济 相关 数据 进行 关 
联 分 析 和 融合 利用 ， 可 以 提高 宏观 调控 的 科学 性 、 预 见 性 和 有 效 性 。 比 如 电 商 交易 、 人 流 、 物 
流 、 金融 等 各 类 信息 的 融合 交汇 可 以 绘 出 国家 经 济 发 展 的 气象 云图 , 帮助 人 们 了 解 未 来 经 济 走 
向 ， 提 前 预知 通货 膨胀 或 经 济 危 机 。 

再 次 ， 大 数据 有 助 于 政府 加 强 事 中 、 事 后 的 监管 和 服务 ， 提 高 监管 和 服务 的 针对 性 、 有 效 
TE. 《国务 院 办 公 厅 关于 运用 大 数据 加 强 对 市 场 主体 服务 和 监管 的 若干 意见 》( 国 办 发 (2015) 
51 号 ) 提出 了 4 项 主要 目标 : 一 是 提高 政府 运用 大 数据 的 能 力 ， 增 强 政府 服务 和 监管 的 有 效 
TE. 二 是 推动 简 政 放权 和 政府 职能 转变 , 促进 市 场 主体 依法 诚信 经 营 ; 三 是 提高 政府 服务 水 平 
和 监管 效率 ,降低 服务 和 监管 成 本 ; 四 是 实现 政府 监管 和 社会 监督 有 机 结合 , 构建 全 方位 的 市 
场 监 管 体系 。“ 大 数据 综合 治 税 ”“ 大 数据 信用 体系 ”等 以 大 数据 融合 加 强 企 业 事 中 、 事 后 监 
管 的 新 模式 的 探索 正在 全 国 各 地 展开 。 

最 后 , 大 数据 有 助 于 推动 权利 管控 精准 化 。 借助 大 数据 实现 政府 负面 清单 、 权 利 清单 和 责 
任 清单 的 透明 化 管理 , 完善 大 数据 监督 和 技术 反腐 体系 , 促进 政府 依法 行政 。 李克强 在 了 解 贵 
阳 利 用 执法 记录 仪 和 大 数据 云 平台 监督 执法 权力 情况 时 说 ， 要 把 执法 权力 关 进 “数据 铁 笼 ”， 
权力 运行 处 处 留 痕 ， 实 现 “ 人 在 干 、 云 在 算 ”。 

总 之 ， 大 数据 超越 了 传统 行政 的 思维 模式 ， 推 动 政 府 从 “经 验 治理 ”转向 “科学 治理 ”。 
随 着 国家 大 数据 战略 渐次 明细 , 各 方 实践 逐步 展开 , 大 数据 在 政府 领域 的 应 用 将 迎 来 高 速 发 展 。 

4. 交通 领域 

交通 数据 资源 丰富 ， 具 有 实时 性 特征 。 在 交通 领域 ,数据 主要 包括 各 类 交通 运行 监控 、 服 
务 和 应 用 数据 ， 如 公路 、 航 道 、 客 运 场 站 和 港口 等 视频 监控 数据 ， 城 市 和 高 速 公路 、 干 线 公 路 
的 各 类 流量 、 气 象 检测 数据 ， 城 市 公交 、 出 租车 和 客运 车 辆 的 卫星 定位 数据 ， 以 及 公路 和 航道 
收费 数据 等 ， 这 些 交通 数据 类 型 繁多 , 而 且 体积 巨大 。 此外， 交通 领域 的 数据 采集 和 应 用 服务 
均 对 实时 性 要 求 较 高 。 目 前 ， 大 数据 技术 在 交通 运行 管理 优化 、 面 向 车 辆 和 出 行者 的 智能 化 服 
务 ， 以 及 交通 应 急 和 安全 保障 等 方面 都 有 着 重大 发 展 。 

在 出 行 方面 ， 面 向 公众 出 行 信息 需求 ， 整 合 交通 出 行 服务 信息 ， 在 公共 交通 、 出 租 汽车 、 
道路 交通 、 公 共 停 车 、 公 路 客运 等 领域 扩大 信息 服务 覆盖 面 ,使 公众 出 行 更 便捷 。 可 以 提供 综 
合 性 、 多 层次 信息 服务 ， 包括 交通 资讯 、 实 时 路 况 、 公 交 车 辆 动态 信息 、 停 车 动态 信息 、 水 上 
客运 、 航班 和 铁路 等 动态 信息 服务 以 及 出 行路 径 规划 、 出 租 招 车 等 信息 交互 服务 。 例如, W 
Uber 打车 软件 提供 出 租车 、 快 车 、 专 车 、 顺 风车 服务 ， 同 时 接 入 地 图 、 路 线 查 询 、 实 时 路 况 、 
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在 线 支付 等 相关 服务 。 智 能 停车 软件 也 进入 市 场 ， 如 停 简 单 、 好 停车 、PP 停车 等 ， 实 现 停车 
行业 与 动态 交通 的 有 效 衔接 。 

在 物流 方面 ,物流 数据 可 以 为 物流 市 场 预测 、 物 流 中 心 选 址 、 优 化 配送 线路 、 仓 库 储 位 优 
化 等 提供 支撑 , 甚至 能 够 提供 交通 路 况 、 车 辆 运行 、 社 会 经 济 发 展 动态 的 信息 。 对 于 跨 境 物流 ， 
整合 集 口岸 监管 、 物 流 运输 、 航 运 信息 ， 可 以 实现 物流 产业 链 的 业务 单据 、 车 辆 船舶 动态 、 通 
关 状 态 等 要 素 信息 的 跨行 业 、 跨 区 域 贯 通 ， 提 高 物流 效率 。 

在 管理 方面 , 利用 交通 行业 数据 支撑 交通 管理 与 决策 。 利 用 数据 挖掘 技术 可 以 深入 研究 交 
通 网 优化 ， 为 行业 发 展 趋势 研判 、 政 策 制定 及 效果 评估 等 提供 支撑 保障 。 此 外 ， 交 通 与 公安 、 
城管 、 环 保 等 相关 职能 部 门 的 大 数据 平台 对 接 ， 可 以 提高 跨 领 域 管理 能 力 。 在 运营 方面 ， 整 合 
行业 数据 ， 形 成 地 面 公 交 、 出 租 汽车 、 轨 道 交 通 、 路 网 建设 、 汽 车 服务 、 港 口 、 航 空 等 领域 的 
一 体 化 智能 管理 。 通 过 车 载 、 运 营 数据 的 精确 、 实 时 采集 可 以 实现 公交 调度 、 行 车 安全 监控 、 
公交 场 站 管理 , 支持 公交 安全 、 服 务 、 成 本 管控 的 全 过 程 管理 和 交互 。 通 过 打通 出 租 汽车 电 调 
平台 与 互联 网 招 车 平台 之 间 的 信息 渠道 , 可 以 提供 多 渠道 便捷 的 招 车 服务 , 实现 对 出 租 汽车 服 
务 质量 的 动态 跟踪 、 评估 和 管理 。 对 轨道 交通 线 网 基础 设施 、 运行 状况 、 运 营 数 据 、 服 务 质量 、 
隐患 治理 、 安 全 保护 区 等 进行 监测 ， 可 以 实现 安全 管理 和 应 急 协同 。 


5. 医疗 领域 


医疗 卫生 领域 每 年 都 会 产生 海量 的 数据 ， 一 般 的 医疗 机 构 每 年 会 产生 1TB~20TB 的 相关 
数据 ， 个 别 大 规模 医院 的 年 医疗 数据 甚至 达到 了 拍 字 节 (PB) 级 别 。 从 数据 种 类 上 来 看 ， 医 
疗 机 构 的 数据 不 仅 涉及 服务 结算 数据 和 行政 管理 数据 , 还 涉及 大 量 复杂 的 门诊 数据 , 包括 门诊 
记录 、 住 院 记录 、 影 像 学 记录 、 用 药 记录 、 手 术 记 录 、 医 保 数据 等 ， 作 为 医疗 患者 的 医疗 档案 ， 
颗粒 度 极为 细致 所 以 医疗 数据 无 论 从 体 量 还 是 种 类 上 来 说 都 符合 大 数据 的 特征 , 基于 这 些 数 
Hi, 可 以 有 效 辅助 临床 决策 支撑 临床 方案 。 同 时， 通过 对 疾病 的 流行 病 学 分 析 ， 还 可 以 对 疾病 
危险 进行 分 析 和 预警 。 

临床 中 遇 到 的 疑难 杂 症 , 有 时 即便 是 专家 也 缺乏 经 验 , 很 难 做 出 正确 的 诊断 ,治疗 也 更 加 
困难 ,临床 决策 支持 系统 可 以 通过 海量 文献 的 学 习 和 不 断 的 错误 修正 给 出 最 适宜 的 诊断 和 最 佳 
治疗 。 大 数据 分 析 技 术 将 使 临床 决策 支持 系统 更 智能 , 这 得 益 于 对 非 结构 化 数据 的 分 析 能 力 日 
益 加 强 。 比 如 可 以 使 用 图 像 分 析 和 识别 技术 识别 医疗 影像 CX 光 、CT、MRI) 数据 ， 或 者 挖 
掘 医疗 文献 数据 ， 建 立 医疗 专 家 数据 库 ， 从 而 给 医生 提出 诊疗 建议 。 此 外 ,临床 决策 支持 系统 
还 可 以 使 医疗 流程 中 大 部 分 的 工作 流向 护理 人 员 和 助理 医生 , 使 医生 从 耗 时 过 长 的 简单 咨询 工 
作 中 解脱 出 来 ， 从 而 提高 治疗 效率 。 以 IBM Watson 为 代表 的 临床 决策 系统 在 开发 之 初 只 是 用 
来 进行 分 诊 的 工作 。 而 如 今 ， 通 过 建立 医疗 文献 及 专家 数据 库 ，Watson 已 经 可 以 依据 与 疗效 
相关 的 临床 、 病理 及 基因 等 特征 , 为 医生 提出 规范 化 临床 路 径 及 个 体 化 治疗 建议 , 不 仅 可 以 提 
高 工作 效率 和 诊疗 质量 , 也 可 以 减少 不 良 反应 和 治疗 差错 。 在 美国 儿科 重症 病房 的 研究 中 ， M 
床 决策 支持 系统 就 避免 了 40% 的 药品 不 良 反应 事件 。 世 界 各 地 的 很 多 医疗 机 构 已 经 开始 了 比 
较 效 果 研 究 (Comparative Effectiveness Research, CER) 项 目 并 取得 了 初步 成 功 。 

大 量 的 基因 数据 临床 实验 数据 、 环境 数据 以 及 居民 的 行为 与 健康 管理 数据 形成 了 “大 数据 ”， 
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同时 随 着 人 类 对 疾病 与 基因 之 间 映 射 关系 认识 的 加 深 , 基 


监控 设备 的 微型 化 ， 移 动 连接 和 网 络 








因 测 序 成 本 的 下 降 , 可 穿戴 设备 的 普及 ， 


盖 范 围 的 扩大 和 大 数据 处 理 能 力 的 大 幅 提升 ， 针 对 患者 个 


体 的 精准 医疗 和 远程 医疗 成 为 可 能 。 通 过 收集 和 分 析 数 据 ， 医 生 可 以 更 好 地 判断 病人 的 病情 ， 可 
实现 计算 机 远程 监护 ， 对 慢性 病 进 行 管理 。 通 过 对 远程 监控 系统 产生 的 数据 进行 分 析 ， 可 以 减少 
病人 住院 的 时 间 ， 减 少 急诊 量 ， 实 现 提 高 家 庭 护理 比例 和 门诊 医生 预约 量 的 目标 。 

公共 卫生 部 门 可 以 通过 覆盖 全 国 的 患者 电子 病历 数据 库 快 速 检测 传染 病 , 进行 全 面 的 疫情 
监测 ,并 通过 集成 疾病 监测 和 响应 程序 快速 进行 响应 。 百 度 通 过 对 全 国 各 地 的 用 户 产生 的 搜索 
日 志 的 分 析 ， 提 供 全 国 331 个 地 级 市 、2870 个 区 县 的 疾病 态势 。 百 度 还 准备 将 社交 媒体 数据 、 


问答 社 








区 数据 ， 甚 至 是 各 地 区 天 气 变化 、 各 地 疾病 人 群 迁 徙 等 特征 数据 融合 到 预测 里 ， 进一步 


提高 预测 的 准确 性 。 很 多 研究 者 试图 利用 其 他 渠道 (比如 社交 网 站 ) 的 数据 来 预测 流感 。 纽 约 
罗切斯特 大 学 的 一 个 数据 挖掘 团队 就 曾 利用 Twitter 的 数据 进行 了 尝试 ， 研 究 者 在 一 个 月 内 收 
ÆT 60 余 万 人 的 440 万 条 Twitter 信息 , 挖 扬 其 中 的 身体 状态 信息 。 分 析 结 果 表明 , 研究 人 员 
可 以 提前 8 天 预报 流感 对 个 体 的 侵袭 状况 ， 而 且 准确 率 高 达 90%。 

基因 测序 研究 一 直 是 大 数据 应 用 的 重点 领域 , 随 着 大 数据 处 理 能 力 的 不 断 提升 , 该 领域 的 
研究 也 进展 显著 。 随 着 计算 能 力 和 基因 测序 能 力 逐 步 增加 , 美国 哈佛 医学 院 个 人 基因 组 项 目 负 
责 人 詹 森 * 鲍 比 认 为 ，2015 年 会 有 5000 万 人 拥有 个 人 基因 图 谱 ， 而 一 个 基因 组 序列 文件 大 小 
约 为 750MB。 成 立 于 2011 年 的 初创 公司 Bina Technology 主要 从 事 的 工作 就 是 利用 大 数据 来 
分 析 人 类 的 基因 序列 , 其 分 析 成 果 将 为 研究 机 构 、 临 床 医师 等 下 游 医疗 服务 行业 提供 最 基础 的 
研究 素材 。 在 同 斯 坦 福 大 学 研究 者 进行 的 试点 研究 结果 表明 ，Bina Technology 平台 利用 大 数 
据 处 理 技术 在 5 个 小 时 内 可 完成 几 百人 的 基因 序列 分 析 , 按照 传统 的 分 析 方 法 需要 花费 一 周 时 
间 来 完成 。 


数据 关联 分 析 ， 为 4 
质量 、 重 点 污染 源 、 


6. 旅游 领域 





在 旅游 行业 ， 大 数据 平台 可 以 收集 互联 网 ， 例 如 论坛 、 博 客 、 微 博 、 微 信 、 电 商 平台 、 
点 评 网 等 有 关 旅 游 的 评论 数据 ， 通 过 对 大 数据 进行 分 词 、 聚 类 、 情 感 分 析 ， 了 解 游客 的 消 
费 习 惯 、 价 值 取 向 ， 从 而 全 面 掌握 旅游 目的 地 的 供需 状况 及 市 场 评价 ， 为 政府 和 涉 旅 企业 
做 决策 提供 依据 。 


7. 环保 领域 


在 生态 环境 领域 , 我 国正 在 加 快 建设 布局 合理 、 功 能 完善 的 生态 环境 监测 网 络 , 实现 对 环 
境 质 量 、 重 点 污染 源 、 生 态 状 况 监测 的 全 覆盖 。 建设 生态 环境 大 数据 平台 , 提高 环境 综合 分 析 、 
预警 预测 和 协同 监管 能 力 ， 搭 建 面向 社会 公众 和 组 织 的 数据 开放 和 共享 平台 ， 打 造 精准 治理 、 
多 方 协作 的 生态 环境 治理 新 模式 。 我 国正 在 加 强生 态 环境 监测 数据 资源 的 开发 与 应 用 , 开展 大 


E 态 环境 保护 决策 、 管 理 和 执法 提供 数据 支持 。 到 2020 年 ， 基 本 实现 环境 
生态 状况 监测 全 覆盖 ， 各 级 各 类 监测 数据 系统 互联 共享 ， 监 测 预 报 预警 、 


信息 化 能 力 和 保障 水 平 明 显 提升 ， 监 测 与 监管 协同 联动 ， 初 步 建成 陆 海 统筹 、 天 地 一 体 、 上 下 
协同 、 信 息 共享 的 生态 环境 监测 网 络 。 
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以 上 我 们 从 电信 、 人 金融、 政务 、 交 通 、 医 疗 、 旅 游 和 环保 等 几 个 行业 分 析 了 行业 大 数据 应 
用 的 典型 模式 和 发 展 状况 。 大 数据 的 应 用 其 实 是 无 所 不 在 的 ， 其 他 行业 (如 工业 、 零 售 业 、 农 
业 ) 的 应 用 场景 也 非常 多 。 但 是 总 体 来 说 ， 大 数据 应 用 尚 处 于 初步 阶段 ,受制 于 数据 获得 、 数 
据 质 量 、 体 制 机 制 、 法 律 法 规 、 社 会 伦理 、 技 术 成 本 等 多 方面 因素 的 制约 ， 实 际 成 果 还 需要 时 
间 检 验 。 


3.74 大 数据 应 用 发 展 趋势 


大 数据 行业 应 用 的 发 展 是 沿袭 数据 分 析 应 用 而 来 的 渐变 的 过 程 .观察 大 数据 应 用 的 发 展演 
变 可 以 从 技术 强度 、 数 据 广度 和 应 用 深度 三 个 视角 切入 《〈 见 图 3-200 。 从 以 上 的 应 用 来 看 ， 
大 数据 区 别 于 传统 的 数据 分 析 ， 有 以 下 特征 。 


€ ”数据 方面 ,逐步 从 单一 内 部 的 小 数据 向 多 源 内 外 交融 的 大 数据 方向 发 展 ,数据 多 样 性 、 
体 量 逐 渐 增 加 。 

© ”技术 方面 从 过 去 以 报表 等 简单 的 描述 性 分 析 为 主 ,向 关联 性 、 预 测 性 分 析 演 进 , 最 
终 向 决策 性 分 析 技 术 阶段 发 展 。 

© ”应 用 方面 ,传统 数据 分 析 以 辅助 决策 为 主 ,在 大 数据 应 用 中 ， 数据 分 析 已 经 成 为 核心 
业务 系统 的 有 机 组 成 部 分 , 最 终生 产 、 科 研 、 行 政 等 各 类 经 济 社会 活动 将 普遍 基于 数 
据 的 决策 ， 组 织 转型 成 为 真正 的 数据 驱动 型 组 织 。 


中 国信 息 通信 研究 院 调查 显示 ， 目 前 企业 应 用 大 数据 所 带 来 的 主要 效果 包括 实现 智能 决 
策 、 提 升 运营 效率 和 改善 风险 管理 。 在 调查 中 ， 企 业 表示 将 进一步 加 大 在 大 数据 领域 的 投入 。 
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图 3-20 大 数据 应 用 发 展 趋势 


3.7.5 ”大 数据 的 产业 链 构 成 分 析 
如 图 3-21 所 示 ， 大 数据 的 产业 链 大 致 可 以 分 为 数据 标准 与 规范 、 数 据 安全 、 数 据 采 集 、 
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数据 存储 与 管理 、 数 据 分 析 与 挖 据 、 数 据 运 维 及 数据 应 用 几 个 环节 , 履 盖 了 数据 从 产生 到 应 用 
的 整个 生命 周期 。 

















图 3-21 大 数据 产业 链 的 构成 


1. 数据 标准 与 规范 

大 数据 标准 体系 是 开展 大 数据 应 用 的 前 提 条 件 ， 没 有 统一 的 标准 体系 ， 数 据 共享 、 分 析 、 
挖掘 、 决 策 支持 将 无 从 谈 起 。 大 数据 标准 包括 体系 结构 标准 、 数 据 格式 与 表示 标准 、 组 织 管理 
标准 、 安 全 标准 和 评测 标准 。 在 标准 化 建设 方面 ， 参 与 单位 主要 包括 各 个 行业 的 标准 化 组 织 。 

2. 数据 安全 

随 着 海量 数据 的 不 断 增加 , 对 数据 存储 和 访问 的 安全 性 要 求 越 来 越 高 ,从 而 对 数据 的 访问 
控制 技术 、 加 密 保护 技术 以 及 多 副本 与 容 灾 机 制 等 提出 了 更 高 的 要 求 。 另外， 由 于 大 数据 处 理 
主要 采用 分 布 式 计算 方法 , 这 必然 面临 着 数据 传输 、 信 息 交 互 等 环节 ， 如 何在 这 些 环节 中 保护 
数据 价值 不 泄露 、 信 息 不 丢失 , 保护 所 有 站 点 的 安全 是 大 数据 发 展 面临 的 重大 挑战 。 在 大 数据 
时 代 , 传统 的 隐私 数据 内 涵 与 外 延 有 了 巨大 突破 和 延伸 , 数据 的 多 元 化 与 彼此 的 关联 性 进一步 
发 展 , 使 得 对 单一 数据 的 隐私 保护 变 得 极其 脆弱 , 需要 针对 多 元 数据 融合 的 安全 提出 新 的 要 求 。 

3. 数据 采集 

政府 部 门 、 以 BAT. 为 代表 的 互联 网 企业 、 运营 商 是 当前 大 数据 的 主要 拥有 者 。 除 此 之 外 ， 
利用 网 络 怜 虫 或 网 站 公开 API 等 途径 对 网 络 数据 进行 采集 也 是 大 数据 的 主要 来 源 。 现 实 世界 
中 的 数据 大 多 不 完整 或 不 一 致 , 无 法 直接 进行 数据 挖掘 或 挖掘 结果 不 理想 , 需要 对 采集 的 数据 
进行 填补 、 平滑、 合并 、 规 格 化 、 检 查 一 致 性 等 数据 预 处 理 操作 ， 并 且 往 往 需 要 大 量 的 人 工 参 
与 ， 因 此 数据 采集 和 清洗 成 为 大 数据 产业 链 的 一 个 重要 环节 。 

4. 数据 存储 与 管理 


大 数据 存储 与 管理 主要 基于 Hadoop 和 MPP。 各 家 企业 针对 大 数据 应 用 开展 各 具 特 色 的 数 
据 库 架 构 和 数据 组 织 管理 研究 ， 形 成 针对 具体 领域 的 产品 。 
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5. 数据 分 析 与 挖掘 

大 数据 分 析 与 挖掘 的 意图 主要 集中 在 两 方面 :一 是 从 大 量 的 机 构 结构 化 和 半 结 构 化 数据 中 
分 析出 计算 机 可 以 理解 的 语义 信息 或 知识 ; 二 是 对 隐 性 的 知识 〈 如 关联 情况 、 意 图 等 ) 进行 控 
掘 。 常 用 的 方法 包括 分 类 、 聚 类 、 关 联 规 则 挖掘 、 序 列 模式 挖掘 、 时 间 序 列 分 析 预 测 等 。 数 据 
分 析 与 挖掘 的 能 力 直接 决定 了 大 数据 的 应 用 推广 程度 和 范围 ， 是 大 数据 产业 的 核心 。 

6. 数据 运 维 

由 于 数据 的 重要 性 得 到 普遍 认可 , 除 政府 部 门 不 具备 数据 运 维 服务 条 件 外 , 数据 的 采集 者 
通常 就 是 数据 运 维 者 。 各 地 政府 则 通常 利用 大 数据 平台 建设 来 推动 政府 大 数据 的 公开 与 共享 ， 
吸引 个 人 和 企业 用 户 开展 创新 与 创业 ， 积 极 推动 大 数据 的 增值 服务 。 

7. 数据 应 用 

大 数据 对 传统 信息 技术 带 来 了 革命 性 的 挑战 ， 正 在 重 构 信息 技术 体系 和 产业 格局 。 国 内 企业 
在 国际 先进 的 开源 大 数据 技术 基础 上 ， 形 成 了 独立 的 大 数据 平台 构建 和 应 用 服务 解决 方案 ， 以 支 
撑 不 同行 业 、 不 同 领域 的 专业 化 应 用 。 虽 然 BAT 企业 在 平台 构建 上 有 着 得 天 独 厚 的 优势 ， 但 是 
在 某 些 具体 的 业务 领域 ， 并 不 擅长 或 者 关注 。 传 统 企业 以 及 从 事 大 数据 的 微型 企业 是 具体 业务 领 
域 大 数据 应 用 的 主力 军 。 应 用 是 大 数据 价值 的 体现 ， 是 大 数据 发 展 的 原始 推动 力 。 当 前 大 数据 的 
应 用 正 倒 允 软件 技术 、 数 据 架 构 、 数 据 共享 方式 的 转变 ， 在 这 个 过 程 中 需要 积极 转变 思想 ， 明 确 
数据 共享 的 方式 是 什么 ， 数 据 拥有 者 的 利益 如 何平 衡 ， 商 业 模 式 如 何 开展 ， 等 等 。 

目前 来 看 , 许多 企业 在 大 数据 产业 链 里 仅 拥 有 一 项 或 两 项 能 力 是 完全 不 够 的 ， 只 有 将 大 数据 
产业 链 融 合 连通 才能 催生 更 大 的 市 场 和 利润 空间 。 在 大 数据 推动 的 商业 革命 浪潮 中 ， 只 有 打通 数 
据 流通 变现 的 商业 模式 才能 创造 商业 价值 ， 从 而 在 大 数据 驱动 的 新 生 代 商 业 格局 中 脱颖而出 。 





本 .号 ”政府 大 数据 案例 分 析 


这 些 年 来 ， 我 国 非常 重视 大 数据 产业 的 发 展 ， 早 在 2014 年 ，“ 大 数据 ” 便 被 写 入 《政府 工 
MEIRE) o 而 在 2016 年 3 月 ,“ 十 三 五 规划 纲要 ”的 发 布 , 更 是 提出 了 “实施 国家 大 数据 战略 ”， 
正式 将 大 数据 提升 至 国家 战略 层面 。 到 了 2016 年 7 月 ，《 促 进 大 数据 发 展 行动 纲要 》 发 布 并 提 
出 ，2018 年 底 前 建成 国家 政府 数据 统一 开放 平台 ， 进 一 步 推动 数据 互通 互联 。 中 共 中 央 政 治 局 
2017 年 12 月 8 日 下 午 实施 国家 大 数据 战略 进行 第 二 次 集体 学 习 。 中 共 中 央 总 书记 习近平 在 主持 
学 习 时 强调 ， 大 数据 发 展 日 新 月 异 ， 我 们 应 该 审时度势 、 精 心 谋划 、 超 前 布局 、 力 争 主动 ， 深 
入 了 解 大 数据 发 展现 状 和 趋势 及 其 对 经 济 社会 发 展 的 影响 ， 分 析 我 国 大 数据 发 展 取得 的 成 绩 和 
存在 的 问题 ， 推 动 实施 国家 大 数据 战略 ， 加 快 完善 数字 基础 设施 ， 推 进 数据 资源 整合 和 开放 共 
享 ， 保 障 数据 安全 ， 加 快 建设 数字 中 国 ， 更 好 地 服务 我 国 经 济 社会 发 展 ， 改 善人 民生 活 。 

大 数据 产业 已 经 热 了 5 年 , 今天 所 面临 的 最 大 问题 依然 是 数据 源 。 内 部 数据 源 主要 面临 的 
是 治理 、 标 准 化 和 互通 等 问题 ， 外 部 数据 源 主要 面临 的 是 开放 、 流 通 和 保护 等 问题 。 工 业 和 信 
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息 化 部 通信 发 展 司 副 司 长 陈 家 春 曾 表 示 ， 中 国 的 数据 总 量 增 长 速度 迅猛 ， 预 计 到 2020 年 将 占 
全 球 的 21%， 我 国正 向 着 数据 资源 大 国 的 方向 前 进 。 不 过 ， 此 前 由 于 政策 法 规 的 不 完善 以 及 
数据 标准 不 统一 等 因素 ,造成 我 国 虽然 数据 资源 丰富 , 却 无 法 实现 这 些 资源 的 有 效 共享 和 应 用 。 


in^ 














， 政 务 信息 共享 交换 平台 的 建设 将 有 望 破解 这 些 大 数据 资源 的 瓶颈 。 在 我 国 , 政府 部 门 掌 


握 着 全 社会 量 最 大 、 最 核心 的 数据 。 了 解 政府 大 数据 应 用 的 案例 和 数据 价值 释放 的 方法 将 有 利 
于 激活 沉睡 的 数据 ， 释 放 政府 数据 的 价值 。 


利用 大 数据 技术 实现 政府 各 业务 部 门 产生 的 业务 数据 、 社 情 民意 数据 、 环 境 数据 以 及 社会 


数据 等 结构 化 数据 和 非 结 构 化 数据 的 汇聚 和 落地 存储 , 并 进行 质量 治理 、 挖掘 融合 、 深 度 学 习 ， 
形成 基础 库 、 主 题库 、 共 享 库 、 开 放 库 等 ， 通 过 数据 管理 门户 、 数 据 开放 门户 共享 开放 给 政府 
部 门 和 社会 大 众 ， 为 政务 大 数据 应 用 提供 计算 、 分 析 、 展 示 等 基本 能 力 服务 ， 为 政府 及 社会 提 
供 共享 交换 、 数 据 增 信 、 金 融 创新 等 数据 增值 服务 。 


3.8 


3.8 


.1 政府 有 哪些 数据 资源 


政府 的 数据 资源 主要 包括 以 下 两 个 方面 。 


e ”政府 所 拥有 和 管理 的 数据 ， 如 典型 的 公安 、 交 通 、 医 疗 、 了 卫生、 就业 、 社 保 、 地 理 、 
文化 、 教 育 、 科 技 、 环 境 、 人 金融、 统计 、 气 象 等 数据 。 
€ — 政府 工作 开展 产生 ,采集 以 及 因 管理 服务 需求 而 采集 的 外 部 大 数据 ( 如 互联 网 与 论 数据 )。 


从 政府 “拥有 或 控制 ”的 角度 来 讲 ， 政 府 数据 资产 大 致 可 分 为 5 类， 分 别 如 下 。 


€ ”政府 资源 才 有 权利 采集 的 数据 ， 如 资源 类 、 税 收 类 、 财 政 类 等 。 

政府 资源 才 有 可 能 汇总 或 获取 的 数据 ， 如 建设 、 农 业 、 工 业 等 。 

因 政 府 发 起 才 产 生 的 数据 ， 如 城市 基建 、 交 通 基建 、 医 院 、 教 育 师资 等 。 

政府 的 监管 职责 所 拥有 的 大 量 数 据 ， 如 人 口 普查 、 食 品 药品 管理 等 。 

政府 提供 的 服务 的 客户 级 消费 和 档案 数据 ， 如 社保 、 水 电 、 教 育 、 医 疗 、 交 通路 况 、 


公安 等 。 


.2 ”政府 大 数据 应 用 案例 


政府 在 建设 和 应 用 大 数据 的 过 程 中 有 独特 的 优势 。 政 府 部 门 不 仅 掌 握 着 80% 有 价值 的 数 


据 ， 而 且 能 最 大 限度 地 调动 社会 资源 ， 整 合 推动 大 数据 发 展 的 各 方 力 量 。 政 府 作 为 大 数据 建设 
和 应 用 的 主导 力量 , 积极 应 用 大 数据 决定 着 能 否 发 挥 大 数据 隐 含 的 战略 价值 , 对 行业 来 说 具有 
引领 性 作用 。 以 下 是 一 些 政府 大 数据 的 应 用 案例 。 


1. 工商 部 门 
e ”企业 异常 行为 监测 预警 
重庆 依托 大 数据 资源 探索 建立 注册 登记 监测 预警 机 制 , 对 市 场 准 入 中 的 外 地 异常 投资 、 行 





业 异 常 变动 、 设 立 异 常 集中 等 异常 情形 进行 监控 , 对 风险 隐患 提前 介入 、 先 行 处 置 ， 有 效 遏 制 
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虚假 注册 、 非 法 集资 等 违法 行为 。 同 时 ， 积 极 推动 法 人 数据 库 与 地 理 空间 数据 库 的 融合 运用 ， 
建设 市 场 主体 分 类 监管 平台 , 将 市 场 主体 精确 定位 到 电子 地 图 的 监管 网 格 上 , 并 集成 基本 信息 、 
监管 信息 和 信用 信息 。 平台 根据 数据 模型 自动 评定 市 场 主体 的 监管 等 级 , 提示 监管 人 员 采 取 分 
类 监管 措施 ， 有 效 提 升 监管 的 针对 性 和 科学 性 。 


@ 中 小 企业 大 数据 服务 平台 精准 服务 企业 


山西 省 中 小 企业 产业 信息 大 数据 应 用 服务 平台 依托 大 数据 、 云 计算 和 垂直 搜索 引擎 等 技 
术 ， 为 全 省 中 小 企业 提供 产业 动态 、 供 需 情报 、 会 展 情报 、 行 业 龙头 、 投 资 情报 、 专 利 情报 、 
海关 情报 、 招 投标 情报 、 行 业 研 报 、 行 业 数据 等 基础 性 情报 信息 ， 还 可 以 根据 企业 的 不 同 需求 
提供 包括 消费 者 情报 、 竞争 者 情报 、 合作 者 情报 、 生 产 类 情报 、 销售 类 情报 等 个 性 化 定制 情报 ， 
为 中 小 微 企 业 全 面 提升 竞争 力 提供 数据 信息 支持 。 

2. 规划 部 门 

e 运营 商 大 数据 助力 城市 规划 


重庆 市 苦 江 区 规划 局 委托 上 海 复旦 规划 建筑 设计 研究 院 及 重庆 移动 共同 开展 ,利用 重庆 移 
动 相关 数据 及 綦江 相关 统计 年 鉴 数据 对 綦江 中 心 城 区 人 口 、 住 宅 、 商 业 、 公 共 服 务 配套 等 进行 
大 数据 分 析 ， 量 化 其 江 房 地 产 库存 ， 从 城市 建设 角度 提出 改进 策略 ， 完 善 城市 功能 ， 促 进 城市 
健康 发 展 。 据 介绍 ,重庆 移动 率先 将 手机 信 令 数据 引入 城市 规划 ， 通过 建立 人 口 迁 移 模型 ， 提 
供 2013-2015 年 期 间 綦江 区 人 口 的 流入 流出 情况 (包括 国际 、 省 际 、 市 内 流动 )， 建 立 职 住 模 
型 提供 綦江 区 居住 及 工作 人 口 的 分 布 , 通过 监控 道路 周边 基站 人 口 的 流动 情况 , 反应 其 江 区 全 
天 24 小 时 道路 人 口 的 流动 情况 ， 识 别 出 各 个 时 段 道路 的 堵 点 。 

3. 交通 部 门 

e ”大 数据 助力 杭州 “ 治 增 ? 


2016 年 10 月 ， 杭 州 市 政府 联合 阿里 云 公布 了 一 项 计划 : 为 这 座 城市 安装 一 个 人 工 智能 中 
枢 一 一 杭州 城市 数据 大 脑 。 城 市 大 脑 的 内 核 将 采用 阿里 云 人 工 智能 技术 , 可 以 对 整个 城市 进行 
全 局 实时 分 析 ， 自动 调 配 公共 资源 ， 修 正 城市 运行 中 的 问题 ， 并 最 终 进化 成 为 能 够 治理 城市 的 
超级 人 工 智能 。“ 缓 解 交 通 堵塞 ”是 城市 大 脑 的 首 个 尝试 ， 并 已 在 萧山 区 投入 使 用 ， 部 分 路 段 
车 辆 通行 速度 提升 了 11%. 

4. 教育 部 门 

© ”徐州 市 教育 局 利用 大 数据 改善 教学 体验 


徐州 市 教育 局 实施 “教育 大 数据 分 析 研究 ”， 旨 在 应 用 数据 挖掘 和 学 习 分 析 工 具 ， 在 网 络 
学 习 和 面对面 学 习 融 合 的 混合 式 学 习 方 式 下 ， 实 现 教育 大 数据 的 获取 、 存 储 、 管 理 和 分 析 ， 为 
教师 教学 方式 构建 全 新 的 评价 体系 ， 改 善 教 与 学 的 体验 。 此 项 工作 需要 在 前 期 工作 的 基础 上 ， 
利用 中 央 电化 教育 馆 掌 握 的 数据 资料 、 指 标 体系 和 分 析 工 具 进行 数据 挖掘 和 分 析 , 构建 统一 的 
教学 行为 数据 库 ， 对 目前 的 教学 行为 趋势 进行 预测 ， 为 “徐州 市 信息 技术 支持 下 的 学 讲课 堂 ” 
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提供 高 水 平 的 服务 ， 并 能 提供 随 教学 改革 发 展 一 直 跟 进 、 持 续 更 新 完善 的 系统 和 应 用 服务 。 

5. 医疗 卫生 部 门 

e ”微软 助 上 海 市 浦东 新 区 卫生 局 更 加 智能 化 

上 海 市 浦东 新 区 卫生 局 在 微软 的 帮助 之 下 ,积极 利用 大 数据 推动 卫生 医疗 信息 化 走 上 新 的 
高 度 : 公共 卫生 部 门 可 通过 覆盖 区 域 的 居民 健康 档案 和 电子 病历 数据 库 快速 检测 传染 病 , 进行 
全 面 的 疫情 监测 ， 并 通过 集成 疾病 监测 和 响应 程序 快速 进行 响应 。 与 此 同时 ,得 益 于 非 结构 化 
数据 分 析 能 力 的 日 益 加 强 ， 大 数据 分 析 技 术 也 使 得 临床 决策 支持 系统 更 智能 。 

6. 气象 部 门 

e 气象 数据 为 理性 救灾 指明 道路 

大 数据 对 地 震 等 “天灾” 救援 已 经 开始 发 挥 重要 作用 ,一旦 发 生 自 然 灾害 ， 通 过 大 数据 技术 
将 为 “理性 救灾 ”指明 道路 。 抓 取 气象 局 、 地 震 局 的 气象 历史 数据 、 星 云图 变化 历史 数据 以 及 城 
建 局 、 规 划 局 等 的 城市 规划 、 房 屋 结构 数据 等 数据 源 ， 通 过 构建 大 气 运动 规律 评估 模型 、 气 象 变 
化 关联 性 分 析 等 路 径 ， 精 准 地 预测 气象 变化 ， 寻 找 最 佳 的 解决 方案 ， 规 划 应 急 、 救 灾 工 作 。 

7. 环保 部 门 

e MERITI XEM d 

微软 在 利用 城市 计算 预测 空气 质量 上 已 推出 Urban Air 系统 ， 通 过 大 数据 来 监测 和 预报 
细 粒 度 空气 质量 ， 该 服务 覆盖 了 中 国 的 300 多 个 城市 ， 并 被 中 国生 态 环境 部 采用 。 同 时 ， 微 
软 也 已 经 和 部 分 其 他 中 国政 府 机 构 签约 , 为 不 同 的 城市 和 地 区 提供 所 需 的 服务 。 该 技术 可 以 对 
京 津 责 、 长 三 角 、 珠 三 角 、 成 渝 城市 群 以 及 单独 的 城市 进行 未 来 48 小 时 的 空气 质量 预测 。 与 
传统 模拟 空气 质量 不 同 , 大 数据 预测 空气 质量 依靠 的 是 基于 多 源 数据 融合 的 机 器 学 习 方 法 , 也 
就 是 说 , 空气 质量 的 预测 不 仅仅 看 空气 质量 数据 , 还 要 看 与 之 相关 的 气象 数据 、 交通 流量 数据 、 
厂矿 数据 、 城 市 路 网 结构 等 不 同 领域 的 数据 ,不同 领域 的 数据 互相 县 加 、 相 互补 强 ， 从 而 预测 
空气 质量 状况 。 

8. 文化 旅游 部 门 

€ 山东 省 用 旅游 大 数据 带动 农村 经 济 发 展 

山东 将 省 内 公安 系统 、 交 通 系统 、 统 计 系统 、 环 保 系统 、 通 信 系 统 等 十 余 个 涉 旅行 业 部 门 
联合 ， 整 合 全 省 旅游 行业 的 要 素数 据 , 开发 完成 旅游 产业 运行 监测 管理 服务 平台 。 通过 管理 分 
析 旅 游 大 数据 , 提升 景区 管理 水 平 , 挖掘 省 内 旅游 资源 , 开发 更 多 符合 游客 需求 的 景点 以 及 “ 农 
家 乐 ”乡村 旅游 服务 ， 进 而 带动 景区 ， 特 别 是 农村 地 区 的 经 济 发 展 。 

9. 政法 部 门 

@ ”济南 公安 用 大 数据 提升 警 务工 作 能 力 

浪潮 帮助 济南 公安 局 在 搭建 云 数 据 中 心 的 基础 上 构建 了 大 数据 平台 ， 以 开展 行为 轨迹 分 
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数据 研判 手段 的 应 用 ,为 指挥 决策 、 各 警 种 情报 分 析 研 判 提 供 支持 ， 围 绕 治安 焦点 能 够 快速 精 
确定 位 、 及 时 全 面 掌握 信息 、 科 学 调度 警力 和 社会 安保 力量 迅速 解决 问题 。 


@ ”上海 利用 大 数据 助 百 姓 找 律师 


2016 年 底 ， 上 海 市 律师 协会 开发 的 上 海 市 律师 行业 信用 信息 服务 平台 上 线 ， 整 合 上 海 市 
司法 局 法 律 服务 行业 信息 平台 、 上 海 市 人 民法 院 律师 诉讼 服务 平台 、 上 海 市 人 民政 府 公共 信息 
信用 平台 三 大 权威 数据 来 源 ,通过 对 法 院 已 经 公开 的 裁判 文书 数据 进行 大 数据 分 析 , 自动 梳理 
出 律师 以 往 诉讼 代理 的 情况 , 方便 百姓 、 企业 以 及 政府 机 构 等 查找 律师 , 促进 法 律 服务 信息 透 
明 对 称 , 推动 法 律 服务 市 场 良性 竞争 。 信用 信息 数据 库 中 包括 基本 信息 、 执 业 信息 、 奖惩 信 息 、 
业务 信息 和 社会 服务 信息 五 大 方面 。 平台 信息 分 为 法 定 公 开 、 行 业 公开 、 自 愿 公开 三 种 ,并 对 
信用 主体 提供 了 多 角度 的 信息 展示 。 对 于 信用 主体 自行 申报 的 信息 , 上 海 律 协 在 形式 审查 后 会 
标注 明确 的 告知 事项 ， 向 社会 公布 ， 接 受 社会 的 监督 。 

10. 农业 部 门 

© ”农业 大 数据 在 三 农 中 的 应 用 


某 公司 以 积累 的 涉 农 基础 数据 为 起 点 , 开展 农村 普 惠 金融 服务 和 供应 链 金 融 服 务 , 以 一 个 
大 数据 平台 加 两 个 应 用 系统 〈 农 资 经 销 商 系 统 和 新 农 人 系统 ) ， 帮 助 新 型 经 营 主体 、 农 资 经 销 
商 解决 规模 、 资 金 和 效率 三 大 难题 ， 并 借 此 收集 农业 生产 中 的 动态 数据 , 将 服务 延伸 到 农业 全 
产业 链 中 的 其 他 七 大 市 场 一 一 农业 金融 、 农 产品 流通 、 农 机 服务 、 农 技 服务 、 农 事 服务 、 土 地 
流转 服务 、 农 业 物 联网 ， 打 造 农业 大 数据 生态 链 闭 环 。 


e 美国 企业 : 大 数据 预测 农作物 生长 


美国 在 农业 大 数据 领域 不 乏 创新 公司 。2006 年 ， 两 名 前 谷歌 员工 创立 了 Climate 
Corporation。 该 公司 通过 海量 公开 的 国家 气象 服务 数据 , 重点 研究 全 美 范围 内 的 热量 与 降水 类 
型 。 通 过 这 些 数据 与 美国 农业 部 积累 的 60 年 农作物 产量 数据 进行 分 析 ， 从 而 预测 玉米 、 大 豆 、 
小 麦 等 农作物 生长 。 同 时 ， 通 过 实时 气象 观察 与 跟踪 ， 公 司 在 线 上 向 农民 销售 天 气 保险 产品 。 
从 2007 年 开始 , Climate Corporation 持续 获得 了 17 个 投资 人 4 轮 1.08 亿美 元 的 投资 ,公司 2013 
年 被 著名 农业 公司 孟 山 都 以 9.3 亿美 元 的 价格 收购 。 

11. 财税 部 门 

€ “无锡 地 方 税务 局 应 用 大 数据 进行 税收 监管 

无 锡 地 方 税务 局 自 2013 年 起 就 着 手 研究 大 数据 时 代 对 税收 管理 发 展 带 来 的 影响 ， 探 讨 大 
数据 技术 应 用 于 税收 风险 管理 的 前 景 ， 并 建设 了 “无 锡 地 税 涉 税 情报 分 析 管 理 平台 ”作为 信息 
化 支撑 , 着 重 研究 行业 、 事 项 和 大 企业 三 类 税收 管理 领域 , 通过 从 互联 网 上 收集 与 纳税 人 有 关 
的 各 类 数据 ， 经 处 理 后 与 征管 系统 中 的 信息 进行 分 析 、 比 对 ， 产生 风险 疑点 实施 推送 应 对 。 值 
得 注意 的 是 ， 相 比 国内 ， 美 国政 府 的 税务 大 数据 应 用 场景 要 具体 得 多 。 自 2012 年 起 ， 美 国联 
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邦 及 州 的 税务 部 门 就 开始 尝试 应 用 大 数据 技术 寻找 偷税 、 骗 税 行为 的 共同 特征 来 打击 逃税 。 美 
国税 务 局 Internal Revenue Service, IRS) 对 纳税 人 申报 信息 与 各 种 公开 信息 记录 进行 比较 ， 
特别 针对 申报 表 中 的 税 前 列 支 内 容 、 退 税 信息 创建 了 大 量 算 法 ， 寻 找 其 中 的 疑点 。 仅 就 2011 
年 度 的 纳税 申报 ， 就 发 现 了 36 亿美 元 的 虚假 税 前 列 支 ， 并 发 现 超过 3% 的 退税 存在 欺诈 行为 。 

e SRŽ 

针对 金融 证 券 领 域 高 频 算法 交易 、 数 据 综合 分 析 、 违 规 操作 监管 、 金 融 研 究 报 告 交 易 、 金 
融 数 据 服务 等 方面 的 需求 , 建设 了 金融 大 数据 分 析 与 智能 决策 支持 系统 。 汇聚 融合 国内 外 证 券 
及 相关 衍生 品 市 场 的 高 通 量 交易 数据 , 整合 行业 媒体 实时 资讯 与 与 情 , 为 相关 机 构 提供 金融 监 
管 和 风险 管控 等 智能 决策 支持 , 为 投资 者 提供 金融 市 场 数 据 和 经 济 数 据 、 投 资方 向 等 个 性 化 的 
金融 数据 服务 。 


12. 人 社 部 门 
e ”镇 江 市 打造 劳动 保障 监察 “大 数据 ”维权 监管 体系 


江苏 省 镇 江 市 人 社 局 牵头 整合 就 业 、 社 保 、 监 察 、 人 才 培 训 及 税务 、 工 商 、 民 政 、 公 安 等 数 
据 资源 ， 形 成 全 市 “信息 共享 、 网 格 联动 、 预 防 处 置 、 指 挥 调 度 ” 劳 动 关系 智能 化 预警 监控 “ 信 
息 链 ”。 通 过 信息 数据 库 的 比 对 ， 市 人 社 部 门 可 以 第 一 时 间 发 现 并 纠正 企业 劳动 保障 违法 行为 ， 
改变 了 以 往 单 靠 劳动 保障 监察 部 门 处理 案 件 的 被 动 局 面 ， 促 进 了 全 市 劳动 关系 的 和 谐 稳定 。 


13. 民政 部 门 


以 群众 办 理 低 保 手 续 为 例 ， 以 前 居民 办 理 低 保 要 提交 各 种 申请 ， 先 给 社区 , 社区 给 县 区 审 
核 ， 县 区 再 给 市 里 的 民政 局 ， 通 过 它 的 系统 来 录入 。 之 后 国家 民政 部 下 面 的 系统 去 核对 ， 一 层 
层 下 来 将 近 一 个 月 。 现 在 把 政务 服务 系统 (比如 车 管 所 系统 ) 和 民政 部 的 低 保 系统 打通 ， 一 周 
就 可 以 办 , 市 民 只 要 跑 一 次 。 如 果 通 过 数据 比 对 发 现 居民 在 车 管 所 的 数据 显示 有 车 ,那么 肯定 
不 符合 办 理 低 保 的 手续 ,这 样 可 以 一 次 性 排除 掉 审核 对 象 ,也 同时 为 公职 人 员 减 轻 了 工作 负担 。 
所 以 ， 数 据 的 打通 能 够 给 政府 和 百姓 双方 都 带 来 极 大 的 便利 。 


3.8.3 ”政府 大 数据 面临 的 挑战 


政府 大 数据 面临 着 诸多 挑战 ， 壁 如 各 自 为 政 、 条 块 分 割 、 烟 奥 林 立 、 信 息 孤岛 ， 系 统 数量 
多 、 分布 散 、 缺 乏 统一 规划 和 标准 规范 、 信 息 资源 纵横 联通 共享 难 ， 导 致 政务 服务 中 标准 不 统 
、 平 台 不 连通 、 数 据 不 共享 、 业 务 不 协同 等 后 果 ， 造 成 了 数据 散 、 少 、 乱 、 差 、 死 的 困境 ， 
最 根本 的 原因 是 系统 庞杂 、 数 据 混 杂 、 网 络 复杂 、 管理 乱 杂 等 。 政府 大 数据 建设 的 核心 是 打破 
信息 壁垒 ， 通 过 信 息 共享 互通 提高 效率 ,将 一 个 个 “信息 孤岛 ”有 效 地 串联 起 来 ， 形 成 城市 大 
数据 平台 。 依 托 大 数据 ， 形 成 以 智慧 城市 基础 设施 为 依托 ， 以 大 数据 平台 为 信息 中 枢 ， 以 人 工 
智能 技术 产品 应 用 为 媒介 的 分 析 系 统 。 

政府 大 数据 在 数据 资源 标准 、 共 享 、 应 用 、 评 价 以 及 数据 资产 转化 方面 面临 着 严峻 挑战 ， 
因此 需要 从 保障 数据 流动 性 的 角度 来 重 构 信息 体系 , 从 关注 流程 和 业务 逻辑 的 角度 转向 关注 数 
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据 流动 性 和 数据 价值 ， 遵 从 信息 流动 的 内 在 逻辑 ， 发 挥 数据 的 最 大 价值 ， 提 高 数据 复 用 率 。 城 
市 大 数据 发 展 应 遵从 四 大 准则 ,首先 ,城市 信息 资源 是 国家 资源 ， 非 某 个 政府 部 门 更 非 某 个 人 
所 有 ; 其 次 ,共享 开放 是 原则 ， 非 共享 开放 是 例外 (重点 在 提高 复 用 率 ) ; 再次， 数据 元 标准 
化 是 前 提 ; 最 后 ,数据 与 系统 分 离 是 趋势 。 所 以 ,我们 要 在 数据 采集 源头 、 数 据 元 标准 、 安 全 
管控 规则 、 数 据 开放 能 力 及 数据 运营 能 力 方 面 助力 大 数据 发 展 。 
务 院 办 公 厅 印发 的 《政务 信息 系统 整合 共享 实施 方案 》 要 求 消除 “僵尸 ”系统 、 加 快 政 
务 部 门 内 部 信息 系统 整合 共享 、 政 务 信息 资源 目录 编制 和 全 国 大 普查 、 推 进 国家 政务 网 共享 平 
台 和 网 站 建设 \ 加 快 国家 数据 开放 平台 和 网 站 建设 规范 建设 互联 网 上 的 政务 服务 平台 和 网 站 、 
全 国联 动 开展 “互联 网 + 政务 服务 ”等 ， 对 政务 信息 资源 元 数据 的 类 型 、 共 享 属性 、 开 放 属性 
的 界定 做 了 分 析 ， 对 政务 信息 资源 目录 梳理 编制 的 工作 流程 、 规 范 等 进行 了 界定 。 

总 之 , 政府 大 数据 的 建设 首先 是 建设 云 计算 中 心 , 将 各 个 行业 搬 到 云 上 。 然 后 整合 政府 各 
部 门 的 数据 ， 形 成 政府 部 门 数 据 共享 ， 利 用 云 计算 和 大 数据 形成 政府 大 数据 平台 。 与 此 同时 ， 
政府 选择 城市 大 数据 运营 商 ， 帮 助 政府 达到 本 地 化 独 具 特 色 的 智慧 城市 目标 。 


3.8.4 ”政府 大 数据 应 用 启示 


数据 是 基础 性 资源 ,也 是 重要 生产 要 素 。 如 何 管理 政府 大 数据 资产 , 我 国 各 部 门 还 缺乏 统 
一 标准 ， 如 何 利用 大 数据 进行 精细 分 析 ， 仍 处 于 探索 起 步 阶段 ， 应 用 分 散 。 分 析 我 国政 府 大 数 
据 应 用 的 现状 和 特点 ， 借 鉴 国外 的 有 益 经 验 ， 推 动 我 国政 府 大 数据 的 应 用 ,应 着 重 从 以 下 几 个 
方面 开展 。 

1. 建设 政府 数据 开放 平台 ， 做 好 政府 数据 资产 整合 与 管理 

政府 数据 资产 到 底 有 多 大 价值 ? 按照 麦肯锡 给 出 的 测算 方法 ,北京 市 政府 部 门 数据 开放 的 
潜在 价值 可 达 3000 亿 元 ~5000 亿 元 ， 按 此 推算 ， 全 国政 府 部 门 数 据 开放 的 潜在 价值 可 达 10 
万 亿 元 ~15 万 亿 元 。 

鉴于 政府 数据 的 巨大 价值 ， 美国、 新 加 坡 、 英 国都 已 经 建成 国家 层面 的 数据 开放 平台 。 在 
我 国 ， 上海、 北京、 广州 、 武 汉 等 地 相继 建立 开放 数据 平台 , 在 数据 公开 方面 做 了 有 益 的 尝试 ， 
但 在 数据 开放 数量 和 质量 上 与 国外 还 有 很 大 差距 一 一 许多 信息 支离破碎 ， 且 使 用 的 格式 各 异 ， 
用 户 搜寻 信息 并 进行 统一 处 理 的 难度 很 高 。 建设 统一 的 政府 数据 开放 平台 , 整合 所 有 的 政府 公 
开 数 据 ， 将 之 以 统一 的 数据 标准 与 数据 格式 进行 发 布 ， 并 为 开发 者 提供 API 接口 ， 可 以 大 大 
提升 公众 对 政府 数据 的 使 用 效率 。 

建设 政务 数据 资源 目录 平台 , 这 是 一 个 政府 内 部 数据 共享 的 平台 , 政务 数据 按照 共享 程度 
分 为 无 条 件 共享 、 有 条 件 共 享 和 不 予 共 享 三 种 类 型 。 只 有 无 条 件 共 享 的 数据 才 会 对 公众 开放 。 
政府 部 门 的 数据 打通 有 助 于 服务 于 智慧 城市 的 建设 。 所 谓 智 慧 城市 , 是 指 政府 利用 先进 的 信息 
和 通信 技术 手段 对 城市 运行 的 各 项 数据 进行 监测 、 分 析 和 整合 ， 从 而 为 民生 、 环 保 、 交 通 、 工 
商业 等 领域 的 活动 提供 更 加 智能 的 服务 。 

打破 信息 孤岛 ,对 已 有 的 政务 数据 进行 交换 、 共 享 、 溯 源 ， 整 合 基础 资源 库 和 各 电子 政务 
系统 的 相关 信息 ， 建 立 数据 分 析 模型 ， 对 重要 民生 领域 相关 数据 进行 挖掘 分 析 ， 并 将 结果 及 时 
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推送 给 相关 部 门 ， 为 政府 决策 和 管理 提供 数据 支撑 。 逐 步 向 社会 开放 交通 、 医 疗 、 教 育 等 重点 
领域 公共 数据 资源 。 

2. 以 需求 为 导向 ， 推 动 大 数据 服务 民生 

政府 数据 本 质 上 是 国家 机 关 在 履行 职责 时 所 获取 的 数据 ,采集 这 些 数据 的 经 费 来 自 于 公共 
财政 ， 因 而 这 些 数据 是 公共 产品 ， 归 全 社会 所 有 ， 应 取 之 于 民 ， 用 之 于 民 。 因 此 ， 政 府 大 数据 
必须 充分 考虑 到 老百姓 的 实际 需求 , 而 不 仅仅 是 将 原来 分 散 管理 的 业务 数据 集中 起 来 提供 给 政 
府 部 门 内 部 办 公使 用 。 例 如 ， 近 年 来 各 地 政府 部 门 推广 实施 “一 号 一 窗 一 网 ”， 将 大 数据 引入 
政府 治理 ， 解 决 群众 “办 证 多 、 办 事 难 ”等 问题 ， 就 是 通过 数据 资源 畅通 流动 、 开 放 共享 ， 推 
动 政府 管理 体制 、 治 理 结构 更 加 合理 优化 、 透 明 高 效 。 


3. 鼓励 数据 开放 ， 引 导 社 会 力量 开发 数据 应 用 产品 


在 大 数据 时 代 ， 对 于 政府 来 说 , 一 方面 应 建设 政府 大 数据 ,实现 政务 数据 资源 的 公开 和 共 
享 ; 另 一 方面 应 承担 起 引领 、 推 动 大 数据 产业 发 展 的 使 命 。 通 过 开放 政府 数据 ， 供 社会 进行 增 
值 开 发 和 创新 应 用 ， 可 以 激发 大 众 创新 ， 万 众 创新 ， 推 动 大 数据 产业 发 展 。 这 方面 美国 的 经 验 
值得 借鉴 。 在 政府 大 数据 应 用 方面 ， 美 国 重视 启发 民智 ， 鼓 励 公 众 对 大 数据 的 应 用 。 一 方面 ， 
政府 、 社 会 与 企业 可 以 从 Data.gov 免费 下 载 数据 ， 还 可 以 利用 Data.gov 提供 的 API 实现 丰富 
的 第 三 方 应 用 的 开发 ; 另 一 方面 ， 基 于 Data.gov， 美 国政 府 还 建设 了 Apps.gov， 面 向 全 国 所 有 
政府 部 门 提供 政府 公用 云 服务 , 并 整合 了 一 系列 的 应 用 程序 , 实际 上 类 似 于 一 个 政府 的 应 用 程 
序 商 店 。 仅 仅 在 Data.Gov 网 站 上 就 汇集 了 几 千 个 应 用 程序 和 软件 工具 。 其 中 ， 有 近 300 个 是 
由 民间 的 程序 员 、 公 益 组 织 等 社会 力量 自发 开发 的 。 
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从 1956 年 达 特 茅 斯 会 议 “ 人 工 智能 ”这 一 概念 被 提出 ， 到 现在 已 经 有 62 年 ， 这 期 间 经 过 
了 多 个 阶段 。2010 年 以 后 ， 随 着 深度 学 习 使 得 语音 识别 、 图 像 识别 和 自然 语言 处 理 等 技术 取 
得 了 惊人 发 展 ， 前 所 未 有 的 人 工 智能 商业 化 和 全 球 化 的 浪潮 席卷 而 来 。 总 的 来 说 ， 人 工 智能 是 
最 早出 现 的 概念 ,其 次 是 机 器 学 习 ， 最 后 出 现 的 是 深度 学 习 ， 是 当今 人 工 智能 大 爆炸 的 核心 驱 
动 ( 见 图 4-1) 。 








人 工 智能 \ 
1956 年 机 器 学 习 
1980 年 


2006 年 


图 4-1 人 工 智能 发 展 阶段 





$ t 
走 进 机 器 学 习 
大 数据 是 怎么 与 图 像 识别 \ 语 音 识别 等 具体 的 AI 技术 联系 起 来 的 呢 ? 靠 的 就 是 机 器 学 习 。 


4.1.1 什么 是 机 器 学 习 


机 器 学 习 (Machine Learning) 是 让 机 器 从 大 量 样本 数据 中 自动 学 习 其 规则 ， 并 根据 学 习 
到 的 规则 预测 未 知 数据 的 过 程 。 以 上 是 机 器 学 习 的 一 个 定义 。 如 果 你 在 网 上 搜索 “机 器 学 习 ”， 
你 会 看 到 很 多 版 本 的 定义 。 毕 竟 ， 越 是 火热 的 词汇 ， 人 们 越 难 给 它 下 一 个 精准 而 权威 的 定义 。 
在 机 器 学 习 的 众多 定义 中 , 我 们 认为 这 个 定义 是 相对 让 初学 者 容易 接受 的 一 种 说 法 。 这 个 定义 
中 的 关键 字 是 “学 习 ” 二 字 。 机 器 学 习 的 目标 是 发 现 数据 中 暗藏 的 规律 ， 并 由 此 来 对 未 知 进行 
预测 。 这 个 过 程 要 通过 “学 习 ” 来 实现 ， 而 学 习 用 到 的 材料 则 是 数据 。 




















4.12 机 器 学 习 的 感性 认识 
如 果 你 是 第 一 次 接触 机 器 学 习 , 其 实 机 器 学 习 离 你 绝 不 遥远 。 机 器 学 习 可 以 类 比 小 孩 认 知 
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事物 的 过 程 ， 只 不 过 这 里 的 认 知 过 程 是 交 给 机 器 来 完成 的 ,让 机 器 发 现 事物 的 规律 。 在 我 们 小 
的 时 候 ， 我 们 对 周边 的 事物 还 并 不 了 解 ， 不 知道 什么 是 苹果 ,什么 是 猫 ， 什么 是 汽车 。 但 在 经 
过 某 种 “训练 ”之 后 ， 我 们 逐渐 能 够 自信 而 准确 地 判断 出 我 们 看 到 的 、 听 到 的 、 感 知 到 的 东西 
是 什么 。 这 个 “训练 ”可 能 来 自 外 部 的 教导 ， 也 可 能 源 自 于 我 们 自身 的 探索 和 尝试 。 

举 个 例子 来 说 ,在 我 们 很 小 的 时 候 ， 家 长 带 我 们 参观 动物 园 。 刚 刚 学 会 说 话 和 识字 的 我 们 
会 看 到 很 多 令 我 们 “惊奇 ”的 未 知 生物 。 家 长 告诉 我 们 那个 长 鼻子 的 动物 是 大 象 ， 我 们 似 懂 非 
懂 地 记 住 了 。 走 了 几 步 之 后 ， 我 们 又 在 另 一 个 地 方 发 现 了 另 一 只 长 得 很 像 之 前 看 到 过 的 物体 ， 
家 长 又 告诉 我 们 “这 也 是 一 只 大 象 ”。 回 到 家 中 ， 我 们 拿 着 洗 出 来 的 照片 ， 指 着 照片 上 的 “长 
鼻子 ” 问 妈妈 , “这 个 是 什么 来 着 ? ”妈妈 回答 我 们 说 是 大 象 。 这 时 我 们 已 经 逐渐 发 现 了 这 个 
叫 作 大 象 的 东西 长 相 的 特点 〈 见 图 4-20 。 过 了 几 天 后 ， 我 们 在 电视 机 上 的 动物 园 短片 中 看 到 
了 一 个 熟悉 的 轮廓 ， 凭 借 自己 对 “长 鼻子 ”和 其 他 特征 的 一 些 判 断 ， 我 们 向 妈妈 喊 出 : “看 ， 
是 大 象 ”。 








4-2 大 象 识别 样 图 


机 器 学 习 的 原理 和 上 面 的 过 程 极其 相似 。 假 如 你 想 让 机 器 完成 从 图 像 中 识别 大 象 的 任务 。 
就 像 人 的 知识 不 是 与 生 俱 来 的 一 样 ， 机 器 不 是 一 上 来 就 什么 都 会 的 ， 想 让 机 器 能 够 完成 任务 ， 
要 先 提供 大 量 的 数据 让 它 学 习 ,告诉 它 大 象 长 什么 样子 ， 大 象 之 外 的 其 他 动物 长 什么 样子 。 在 
经 过 大 量 样本 的 学 习 后 ， 机 器 可 以 从 一 张 新 的 图 像 中 判定 其 中 是 否 有 大 象 ， 如 图 4-3 所 示 。 


mue 


| 


图 4-3 大 象 识别 样 图 
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如 





图 4-4 所 示 ， 类 似 人 脑 思考 ， 机 器 经 过 大 量 样本 的 训练 training) ， 获 得 了 一 定 的 经 验 





〈 模 型 ) ， 从 而 产生 了 能 够 预测 (inference) 新 的 事物 的 能 力 ， 就 是 机 器 学 习 。 这 种 预测 能 力 ， 
本 质 上 是 输入 到 输出 的 映射 。 


第 4 章 机 器 学 习 概述 
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图 4-4 机 器 学 习 与 人 脑 思考 
给 定 一 个 输入 ， 比 如 一 段 语 音 、 一 张 图 片 或 者 一 些 数 据 型 的 信息 , 计算 机 能 够 建立 一 个 函 
数 〈 可 以 理解 为 一 种 对 应 关系 ) ， 生 成 输出 结果 ( 见 图 4-5) 。 机 器 学 习 的 任务 就 是 找到 这 个 
函数 ， 找 出 从 输入 到 输出 的 规则 。 
“你 好 ! m 


语音 识别 “你 好 ” 


EA. . 图 像 识别 猫 


右 转 指令 





自动 驾驶 右 转弯 
“Thank you” > “谢谢 ” 
翻译 文字 
图 4-5 机 器 学 习 的 例子 
4.4.4 对 机 器 学 习 的 全 面 认识 
机 器 学 习 是 一 门 学 科 , 它 基 于 概率 、 统 计 、 优 化 等 数学 理论 的 研究 ， 理 论 严谨 ， 也 是 已 被 
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广泛 认可 的 成 熟 的 知识 体系 。 机 器 学 习 在 高 等 教育 院 校 中 作为 一 门 独 立 的 课程 存在 , 近年 来 受 
到 包括 数据 科学 、 统 计 学 、 计 算 机 、 应 用 数学 、 运 筹 学 、 工 程 学 等 众多 专业 的 学 生 的 青睐 。 在 
学 术 研究 方面 ， 每 年 机 器 学 习 相关 论文 发 表 不 计 其 数 ， 是 数理 学 科 重 要 的 学 术 研究 方向 之 一 。 

机 器 学 习 也 是 一 门 技 术 ， 它 被 数据 科学 家 (Data Scientist) 广泛 应 用 ， 是 在 数据 分 析 中 最 
常用 的 技术 之 一 。 而 数据 科学 家 也 是 21 世纪 最 火热 的 职业 之 一 ， 其 中 机 器 学 习 是 这 个 职位 最 
重要 的 技能 和 工作 内 容 之 一 。 同 时, 也 有 像 “ 机 器 学 习 工程 师 ” 这 样 的 纯粹 做 机 器 学 习 的 岗位 。 
随 着 大 数据 时 代 信息 量 和 数据 量 的 爆炸 式 提升 , 人 们 对 未 知事 物 更 加 好 奇 , 机 器 学 习 越 来 越 能 
够 “落地 ”而 发 挥 使 用 价值 。 同 时 ， 随 着 Python 等 编程 语言 的 普及 以 及 TensorFlow 等 机 器 学 
习 框架 的 完善 ， 这 个 曾经 似乎 是 高 端 学 术 的 东西 也 越 来 越 偏向 应 用 ， 能 够 被 更 多 人 接受 。 

机 器 学 习 包 含 一 系列 算法 , 虽说 它 是 这 一 系列 算法 的 总 称 , 但 仅仅 把 机 器 学 习 视 为 算法 或 
者 模型 是 不 准确 的 。 机 器 学 习 是 解决 问题 的 一 种 方法 , 算法 只 是 其 中 的 一 部 分 。 这 里 所 谓 的 算 
法 或 者 模型 ,只 是 从 输入 到 输出 之 间 的 一 步 ,而 机 器 学 习 是 实现 从 输入 到 输出 的 全 部 过 程 , 其 
中 还 包括 对 输入 数据 的 清洗 和 转换 、 对 特征 的 提取 和 整合 、 对 数据 的 探索 分 析 等 。 这 些 必要 的 
步骤 不 做 ， 拿 到 数据 就 盲目 地 直接 套用 模型 ， 是 不 能 解决 问题 的 。 























4.15 机 器 学 习 、 深 度 学 习 与 人 工 智能 

机 器 学 习 、 深 度 学 习 和 人 工 智能 都 是 现今 人 们 热 议 的 词汇 , 这 三 个 概念 通常 被 人 们 联系 在 
一 起 讨论 , 但 很 多 人 理 不 清 三 者 之 间 的 关系 。 其 实 这 三 个 概念 虽然 定义 上 的 动机 和 角度 有 所 差 
异 , 但 事实 上 它们 之 间 存 在 很 清晰 的 包含 关系 。 普 遍 认为 ， 人 工 智能 、 机 器 学 习 、 深 度 学 习 三 
者 的 关系 如 图 4-6 所 示 。 


ALB hE 
Artificial Intellegence 


机 器 学 习 
Machine Learning 


深度 学 习 
Deep Learning 





图 4-6 人 工 智 能 、 机 器 学 习 和 深度 学 习 的 包含 关系 


从 概念 上 来 说 , 机 器 学 习 是 人 工 智 能 的 一 个 分 支 。 机 器 学 习 被 看 作 解 决 人 工 智能 问题 的 途 
径 或 者 方案 。 而 深度 学 习 是 机 器 学 习 的 子 类 , 或 者 可 以 理解 为 机 器 学 习 众 多 算法 中 的 一 种 。 只 
不 过 因为 它 最 近 过 于 突出 的 表现 ， 人 们 越 来 越 习惯 把 这 个 概念 单独 提出 来 讨论 。 

从 时 间 轴 来 看 ， 三 者 也 从 大 到 小 有 着 推进 关系 。 人 工 智能 这 个 词 出 现 得 最 早 。 早 在 1950 
年 ， 人 工 智能 的 概念 就 被 提出 ， 当 时 这 个 全 新 的 领域 令 人 兴奋 不 已 。 到 了 1980 年 左右 ， 机 器 
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学 习 开 始 兴 起 , 人 们 开始 用 机 器 学 习 的 方法 解决 人 工 智能 问题 。 深度 学 习 在 2010 年 开始 流行， 
作为 机 器 学 习 中 最 前 沿 的 部 分 , 推动 人 工 智能 发 展 出 现 巨 大 突破 。 下 面 介绍 深度 学 习 ， 并 重点 
说 明 深 度 学 习 和 机 器 学 习 的 关系 。 

最 近 几 年 , “深度 学 习 ” 的 概念 也 越 来 越 火热 ， 并 且 这 个 词 更 多 地 与 人 工 智能 产生 了 直接 
联系 。 深 度 学 习 被 视 为 进入 人 工 智 能 领域 的 敲门砖 ， 也 是 很 多 人 工 智 能 项 目 开 展 的 基石 。 关 于 
深度 学 习 , 我 们 会 在 后 面 的 章节 中 进行 详细 介绍 。 这 里 我 们 先 用 几 句 话说 明 深度 学 习 与 机 器 学 
习 之 间 的 联系 和 区 别 。 

前 文 提 到 , 深度 学 习 和 机 器 学 习 是 包含 关系 , 深度 学 习 是 机 器 学 习 的 一 个 子 类 。 在 传统 的 
介绍 机 器 学 习 算法 的 课程 中 , 绝 大 多 数 会 提 到 神经 网 络 这 个 模型 ， 而 深度 学 习 其 实 就 是 有 多 个 
隐藏 层 的 神经 网 络 。 所 以 说 ， 深 度 学 习 可 以 算 作 机 器 学 习 的 一 个 分 支 领 域 ， 从 算法 来 说 是 机 器 
学 习 的 一 种 , 只 不 过 这 个 分 支 由 于 具有 其 他 算法 不 具备 的 显著 优势 , 特别 在 AI 领域 的 应 用 中 ， 
这 些 优势 使 得 深度 学 习 解 决 问题 的 效果 尤为 突出 , 所 以 在 某 种 程度 上 , 深度 学 习 几 乎 成 了 人 工 
智能 模型 算法 的 代名词 。 

在 AI 很 多 特定 的 领域 中 ， 我 们 看 到 的 现象 也 确实 如 此 ， 深 度 学 习作 为 新 兴 的 模型 算法 ， 
表现 出 压倒 性 的 统治 力 ， 而 传统 的 机 器 学 习 算法 应 用 只 占 极 少数 。 那 么 ,深度 学 习 究 竟 为 何 能 
够 在 短 时 间 内 有 异军突起， 击败 它 的 “ 老 前 辈 ” 们 ， 成 为 新 时 代 的 宠儿 ? 深度 学 习 的 优势 究竟 在 
哪里 ? 在 本 书 介绍 完 机 器 学 习 和 深度 学 习 后 , 相信 读者 会 对 它们 的 本 质 看 得 更 透彻 , 也 会 对 二 
者 产生 更 直观 的 感性 认识 ， 对 这 个 问题 我 们 会 在 第 7 章 给 出 解释 。 

在 这 个 深度 学 习 大 有 “一 统 江湖 ”趋势 的 时 代 里 ,我 们 还 有 必要 学 习 传统 的 机 器 学 习 模型 
理论 吗 ? 答案 是 肯定 的 。 首 先 ， 传 统 的 机 器 学 习 模型 并 不 落后 ， 至 今 还 有 相当 大 的 使 用 价值 ， 
在 一 些 特定 的 问题 中 使 用 起 来 更 为 快速 、 灵 活 ;， 其 次 , 传统 机 器 学 习 模 型 的 思想 对 学 习 深 度 学 
习 有 重要 的 帮助 。 深 度 学 习 的 许多 理论 和 思想 是 基于 传统 机 器 学 习 模 型 的 理念 而 来 的 。 深 度 学 
习 所 用 的 神经 网 络 可 以 由 简单 的 机 器 学 习 模型 〈 如 感知 机 、 逻 辑 回归 ) 演变 而 来 。 

对 于 初学 者 来 说 ， 可 以 将 深度 学 习 理解 为 “多 层 神 经 网 络 ”。 严 格 来 说 ， 深 度 学 习 是 一 种 
学 习 的 模式 ， 是 指 采 用 具有 “深度 ”的 模型 进行 学 习 ， 其 本 身 并 不 是 一 个 模型 。 多 层 神经 网 络 
是 具有 “深度 ”特点 的 一 个 学 习 模型 ， 它 实际 上 是 深度 学 习 的 一 种 形式 。 


4.4.0 机 器 学 习 、 数 据 挖掘 与 数据 分 析 


除了 深度 学 习 之 外 ， 另 一 个 和 机 器 学 习 类 似 而 被 人 们 广泛 谈论 的 词语 是 数据 挖掘 (Data 
Mining) 。 另 外 ， 数 据 分 析 (Data Analysis) 和 大 数据 分 析 (Big Data Analysis) 也 似乎 和 机 器 
学 习 有 着 密切 的 联系 。 下 面 我 们 把 这 几 个 概念 放 到 一 起 谈 谈 。 

无 论 是 机 器 学 习 、 数 据 挖掘 还 是 数据 分 析 ，, 都 没有 一 个 学 术 上 的 权威 定义 。 这 几 个 词 本 身 
从 定义 上 的 出 发 点 不 同 , 并 且 提 出 概念 的 动机 和 背景 上 的 差异 比 之 前 提 到 的 人 工 智 能 、 机 器 学 
习 和 深度 学 习 之 间 的 差异 更 大 , 因此 它们 直接 的 界定 更 为 模糊 。 因 为 它们 在 定义 上 有 相通 和 重 
合 之 处 ,我 们 也 没有 必要 刻意 去 区 分 这 几 个 概念 之 间 的 关系 .这 几 个 概念 不 像 之 前 的 人 工 智能 、 
机 器 学 习 、 深 度 学 习 那 样 容易 通过 维 恩 图 来 闭 述 ,不 过 我 们 还 是 简单 比较 一 下 它们 之 间 的 异同 。 
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我 们 先 来 看 一 个 数据 分 析 的 例子 ， 如 表 4-1 所 示 。 
表 4-1 数据 分 析 的 例子 


















对 照 组 〈 无 药物 ) 
144 
13.9 
12.4 
15.8 
15.0 
14.6 


药物 A 
14.3 
15.9 
16.1 
12.8 
13.0 
14.6 








179 
172 
16.6 
19.8 























对 比 上 述 三 组 数据 ， 我 们 会 发 现 B 组 的 得 分 显著 高 于 A 组 和 对 照 组 。 通 过 建立 统计 学 模 
型 ， 我 们 会 得 出 B 组 的 得 分 显著 高 于 A 组 的 结论 ， 于 是 证 明 药物 B 更 加 有 效 。 根 据 已 知 信息 
进行 分 析 总 结 ， 得 出 有 意义 的 结论 ， 就 是 一 般 数据 分 析 要 做 的 工作 。 

人 们 通常 所 说 的 数据 分 析 是 对 小 规模 数据 而 言 的 , 而 当 我 们 需要 处 理 大 规模 数据 时 , 往往 
会 用 大 数据 分 析 这 个 说 法 。 大 数据 分 析 和 数据 分 析 相 比 , 主要 是 数据 量 的 区 别 以 及 因此 而 带 来 
的 运算 模式 和 方法 上 的 差异 。 大 数据 分 析 通 常 需要 依赖 多 台 计算 机 和 分 布 式 系统 架构 进行 计 
算 。 除 去 这 一 点 ， 大 数据 分 析 在 目标 上 和 数据 分 析 是 大 致 相同 的 。 大 数据 分 析 与 数据 挖掘 、 机 
器 学 习 的 概念 也 更 接近 一 些 ， 因 为 数据 挖掘 和 机 器 学 习 几 乎 都 是 建立 在 大 数据 基础 上 的 。 

相 比 数据 分 析 ， 数 据 挖 掘 要 做 的 事情 更 深入 , 跟 机 器 学 习 的 意义 也 更 为 贴近 。 数 据 挖 掘 不 
仅 是 对 数据 进行 分 析 总 结 , 还 要 “挖掘 ”表层 所 看 不 到 的 信息 。 从 概念 上 来 说 ,二 者 既 有 交叉 ， 
又 有 区 别 。 数 据 挖掘 的 范围 更 大 ,是 指 从 数据 中 获得 有 价值 的 信息 。 数 据 挖 掘 经 常会 通过 机 器 
学 习 来 完成 。 事 实 上 , 两 者 的 区 别 我 们 只 需 从 字面 上 理解 即 可 。 数据 挖掘 侧重 于 “挖掘 ” 二 字 ， 
是 从 海量 数据 中 发 现 和 提取 有 用 信息 的 过 程 。 这 里 所 谓 有 用 的 信息 ,可 以 是 任何 具有 指导 意义 、 
在 商业 环境 中 能 够 帮助 人 们 进行 决策 的 信息 。 

数据 挖掘 的 一 个 经 典 案例 是 “啤酒 和 尿布 ”的 故事 。 在 20 世纪 90 年 代 , 美国 沃尔玛 超市 
的 管理 人 员 从 销售 数据 中 发 现 了 一 个 有 趣 的 现象 .在 某 些 特定 的 情况 下 ，“ 啤 酒 ”与 “尿布 ” 
两 件 看 上 去 毫 无 关系 的 商品 经 常会 出 现在 同一 个 购物 篮 中 。 经 过 后 续 分 析 发 现 , 同时 购买 这 两 
种 商品 的 顾客 通常 是 年 轻 的 父亲 。 这 样 问题 得 到 了 解释 : 在 美国 有 婴儿 的 家 庭 中 ,母亲 一 般 在 
家 中 照看 婴儿 , 而 去 超市 买 尿布 的 任务 通常 会 落 在 父亲 身上 。 父亲 在 购买 尿布 的 同时 ,往往 会 
顺便 为 自己 购买 啤酒 。 因此， 啤酒 和 尿布 竟然 成 为 “会 经 常 同 时 购买 ”的 商品 。 这 样 一 来 ， 沃 
尔 玛 想 出 了 一 个 点 子 , 将 啤酒 和 尿布 尝试 摆 放 在 同一 个 货架 区 域 , 从 而 让 年 轻 父 亲 能 够 在 找到 
尿布 的 同时 发 现 啤 酒 , 从 而 大 大 提升 了 两 种 商品 的 购买 率 , 最终 为 超市 带 来 了 更 高 的 营业 收入 。 
通过 数据 挖掘 ， 沃 尔 玛 员工 给 公司 挖掘 出 了 商业 价值 。 这 就 是 数据 挖掘 的 魅力 所 在 。 

反观 机 器 学 习 ， 从 机 器 学 习 的 定义 来 说 ， 它 最 终 落 在 “预测 ”两 个 字 上 ， 由 此 可 见 ， 通 常 
机 器 学 习 是 基于 预测 未 知 信息 给 人 们 带 来 决策 上 的 收益 的 。 但 数据 挖掘 则 不 限于 如 此 。 发 现 数 
据 的 规律 后 不 一 定 要 跟着 做 预测 ， 一 条 有 价值 的 总 结 性 信息 可 以 直接 帮助 人 们 进行 决断 。 

机 器 学 习 、 数 据 挖掘 、 数 据 分 析 、 大 数据 分 析 的 相同 点 总 结 如 下 : 
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都 是 从 数据 中 提取 信息 的 过 程 。 
都 是 数学 和 计算 机 结合 的 产物 。 
都 可 以 帮助 人 们 进行 判断 和 决策 。 





^ 
”机 器 学 习 的 基本 概念 
在 本 节 中 , 我 们 首先 了 解 一 个 机 器 学 习 任务 是 如 何 进行 的 , 分 为 哪些 关键 步骤 ; 其 次 阐述 


机 器 学 习 中 的 几 个 重要 的 术语 样本、 特征、 目标 ); 最 后 了 解 如 何 根据 目标 形式 对 机 器 学 习 
任务 进行 分 类 。 


4.2.1 数据 集 、 特 征 和 标签 


我 们 从 一 个 实际 问题 出 发 。 表 4-2 是 纽约 市 某 餐 厅 一 个 月 内 顾客 消费 和 给 予 小 费 的 数据 ， 
我 们 希望 利用 此 数据 研究 顾客 用 餐 给 小 费 的 规律 。 以 这 个 数据 集 为 例 , 我 们 先 向 读者 介绍 机 器 
学 习 中 的 一 些 基 本 概念 。 


A 


He 


R42 某 餐厅 小 费 支付 表 





*# 数 据 节选 自 Python Seaborn 数据 包 。 原 数据 包含 244 MEA, THEE. 


我 们 通常 把 表 4-2 这 样 的 样本 数据 叫 作 数据 集 (dataset) ， 该 数据 集 以 结构 化 的 列表 形式 
呈现 。 数 据 集 由 若干 样本 Cinstances 或 examples) 组 成 ， 每 一 个 样本 是 一 个 观测 数据 的 记录 
(Records) ， 或 者 叫 观测 值 (Observances) ， 在 表格 中 以 行 (Row) 的 形式 体现 。 在 机 器 学 
习 中 ， 一 行 、 一 条 记录 和 一 个 样本 的 概念 可 以 视 为 是 等 价 的 。 在 这 个 情景 中 ,我 们 关注 的 是 顾 
客 给 予 小 费 的 情况 ， 小 费 这 一 列 是 我 们 关注 的 结果 Coutcome) ， 我 们 可 以 把 这 个 变量 称 为 因 
变量 (dependent variable, 也 叫 函数 值 ), 在 机 器 学 习 领 域 中 通常 叫 作 目 标 (target) 或 标签 (label)， 
也 有 人 把 它 称 为 响应 值 (response) 。 以 上 几 个 概念 可 以 视 为 一 个 意思 ， 在 本 书 中 一 般 用 目标 
来 指 代 这 个 变量 ， 对 应 的 数据 称 为 标签 数据 。 不 同 于 “小 费 ”， 表 中 其 他 列表 示 的 变量 在 这 个 
问题 中 是 用 来 解释 和 预测 “小 费 ” 的 ， 我 们 把 这 些 变量 叫 作 自 变量 Cindependent variables) ， 
在 机 器 学 习 领 域 通 常用 特征 (Features ) 这 个 术语 来 表示 。 特征 和 目标 在 表 中 通常 以 列 (column) 
的 形式 呈现 。 整 个 关系 如 图 4-7 所 示 。 
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特征 (Features) 





4-7 特征 和 目标 例子 


4.2.2 监督 式 学 习 和 非 监 督 式 学 习 


标签 (Label) 


并 不 是 所 有 机 器 学 习 任 务 的 数据 集 都 带 有 标签 数据 ,我 们 把 具有 标签 数据 的 学 习 任 务 叫 作 
监督 式 学 习 (Supervised Learning) 。 当 目标 变量 是 连续 型 〈 比 如 温度 、 价 格 ) 的 时 候 ， 我 们 
把 这 类 问题 叫 作 回归 任务 (Regression Task) ; 当 目 标 变量 是 离散 型 〈 例 如 某 种 植物 是 否 具有 
毒性 、 贷 款 人 是 否 会 违约 、 员 工 所 属 部 门类 别 ) 的 时 候 ， 我 们 遇 到 的 问题 则 是 分 类 任务 


(Classification Task) 。 回 归 问 题 和 分 类 问题 是 监督 式 学 习 的 两 大 类 型 。 


有 时 我 们 遇 到 的 样本 数据 并 没有 标签 数据 ， 我 们 把 这 个 问题 叫 作 非 监督 式 学 习 
(Unsupervised Learning) 。 非 监督 式 学 习 虽 然 没 有 标签 数据 ， 但 我 们 仍然 可 以 挖掘 特征 数据 
的 信息 进行 分 析 ， 聚 类 (Clustering) 就 是 其 中 最 常见 的 一 种 ， 它 根据 样本 数据 分 布 的 特点 将 
数据 分 成 几 个 类 。 我 们 可 以 把 机 器 学 习 任 务 按 图 4-8 进行 分 类 。 






监督 式 学 习 
(Supervised 
Learning) 









4-8 机 器 学 习 分 类 


4.2.3 ”强化 学 习 和 迁移 学 习 






回归 
(Regression) 
Fe 
(Classification) 
RE 
(Clustering) 


强化 学 习 (Reinforcement Learning) 是 不 同 于 监督 式 学 习 和 非 监督 式 学 习 的 另 一 种 机 器 学 
习 方法 。 在 传统 机 器 学 习 分 类 中 不 包括 强化 学 习 , 而 随 着 强化 学 习 的 飞速 发 展 , 越 来 越 多 的 人 





倾向 于 把 强化 学 习 看 作 机 器 学 习 的 第 三 类 方法 。 


强化 学 习 是 基于 “行动 -反馈 ”的 自我 学 习 机 制 。 所 谓 反 馈 ， 是 一 种 基于 行动 对 学 习 机 的 
奖励 。 学 习 机 以 最 大 化 奖励 为 目标 ， 不 断 改进 “行动 ”， 从 而 适应 环境 。 强 化 学 习 与 监督 式 学 


习 的 主要 区 别 是 ， 前 者 是 完全 靠 自己 的 经 历 去 学 习 ， 没 有 人 告知 学 习 机 正确 的 答案 ， 


的 信号 是 对 学 习 机 行动 的 反馈 ;而 后 者 则 是 有 人 在 监督 学 习 机 。 

强化 学 习 就 像 人 类 刚 出 生 时 探索 未 知 的 大 自然 一 样 , 是 自我 摸索 寻找 行为 道路 的 过 程 。 强 
化 学 习 目前 一 个 火热 的 应 用 是 在 游戏 AI 中。 一 个 射击 游戏 的 机 器 人 要 学 会 如 何 躲 避 敌 人 子弹 ， 
找到 最 合理 的 开 枪 和 换 子 弹 时 机 , 这 些 用 传统 的 机 器 学 习 来 完成 是 相当 困难 的 , 因为 游戏 对 局 
是 动态 的 、 瞬 息 万 变 的 ， 有 无 数 种 可 能 。 要 用 监督 式 学 习 “ 教 会 ”电脑 如 何 进行 这 些 操作 ， 需 
要 训练 的 过 程 是 漫长 而 烦琐 的 。 强 化 学 习 很 好 地 适应 了 这 一 问题 。 我 们 需要 给 电脑 一 个 反馈 机 
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制 ， 将 “未 能 躲避 子弹 ”作为 惩罚 ， 杀 死敌 人 给 予 奖赏 ， 剩 下 的 就 完全 交 给 电脑 去 完成 。 这 样 
电脑 就 能 通过 一 遍 又 一 遍 的 行为 探索 得 到 一 套 成熟 有 效 的 行动 方案 。 

迁移 学 习 指 的 是 将 已 经 训练 好 的 参数 提供 给 新 的 模型 用 作 训练 .现实 中 很 多 机 器 学 习 问题 
是 存在 相关 性 的 。 比 如 在 图 像 识 别 中 ， 识 别 狗 和 识别 哈士奇 ， 虽 然 具 体 任务 不 同 ， 但 它们 具有 
相似 性 , 用 于 识别 狗 的 模型 学 习 到 的 参数 可 以 分 享 给 识别 哈士奇 的 任务 , 使 得 后 者 可 以 “从 半 
路 开始 ”， 而 不 是 从 零 开始 学 习 参数 ， 大 大 减少 了 学 习 时 间 。 

迁移 学 习 并 不 是 一 种 新 的 机 器 学 习 分 类 , 而 是 一 种 加 快 学 习 的 模式 。 迁移 学 习 在 深度 学 习 
模型 中 的 应 用 尤为 明显 。 深 度 学 习 的 模型 庞大 复杂 ， 具 有 极 多 的 参数 需要 训练 。 


424 ”特征 数据 类 型 


€ 数值 型 (numerical) ， 如 长 度 、 温 度 、 价 格 等 。 
€ ”分 类 型 (categorical ) ， 如 性 别 。 

€ 文本 (text) ， 如 姓名 、 地 址 等 。 

© HJ (datetime) , 4 2018-08-26. 


4.2.5 训练 集 、 验 证 集 和 测试 集 


在 机 器 学 习 任务 中 ， 我 们 通常 将 数据 集 分 成 三 部 分 : 训练 集 (Training Set) 、 验 证 集 
(Validation Set) 和 测试 集 (Test Set) 。 下 面 介绍 这 三 个 概念 。 


@ ”训练 集 : 用 于 训练 模型 ， 确 定 模型 中 的 参数 。 

e BER: 用 于 模型 的 选择 和 优化 。 

e ”测试 集 : 用 于 对 已 经 训练 好 的 模型 进行 评估 ， 评 价 其 表现 。 

训练 集 和 测试 集 的 概念 相对 好 理解 。 训练 集 顾名思义 是 用 来 训练 的 , 机 器 使 用 训练 集 来 学 
习 样本 。 而 测试 集 用 来 检验 模型 的 效果 。 就 像 我 们 在 学 校 学 习 功 课 , 训练 集 如 同 教科 书 中 的 题 
库 ， 测 试 集 相 当 于 考试 试卷 。 我 们 通过 “ 刷 题库 ”获得 知识 ， 从 而 在 考试 中 取得 优异 的 成 绩 。 





为 什么 要 建立 测试 集 呢 ? 不 直接 用 训练 集 进行 测试 的 原因 是 ， 模 型 是 用 训练 集 进行 学 习 
的 , 倾向 于 尽 可 能 拟 合 训练 集 数 据 的 特性 ， 因 此 在 训练 集 上 的 测试 效果 通常 会 很 好 , 但 在 没有 
见 过 的 数据 集 上 表现 效果 可 能 会 明显 下 降 ， 这 个 现象 叫 作 过 拟 合 〈Overfitting) 。 有 关 过 拟 合 
的 概念 , 后 面 会 详细 介绍 。 模型 在 没有 见 过 的 数据 集 上 取得 高 准确 率 比 在 原 训练 集 上 获得 好 的 
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效果 更 有 说 服 力 。 因 此 , 总 是 要 设立 测试 集 。 就 像 只 有 考试 才能 最 公平 地 衡量 学 生 对 功课 的 掌 
握 程度 一 样 。 

有 了 训练 集 和 测试 集 ,很 多 机 器 学 习 入 门 者 可 能 不 知道 还 有 验证 集 这 样 一 个 概念 .事实 上 ， 
验证 集 是 用 来 调 参 的 。 为 了 叙述 的 流畅 性 ， 这 里 读者 可 以 先 将 调 参 理解 为 调整 模型 ， 相 关 概 念 
会 在 后 续 章节 介绍 并 通过 具体 例子 说 明 。 验证 集 的 作用 是 比较 我 们 所 尝试 的 多 个 模型 , 从 中 选 
择 表现 最 好 的 一 个 。 这 个 任务 仅 通 过 测试 集 其 实 也 能 实现 , 很 多 人 会 直接 把 测试 集 当 作 验 证 集 
来 选择 和 优化 模型 ， 从 而 将 测试 集 和 验证 集 的 概念 混为一谈 。 但 严格 来 说 ， 验 证 集 的 单独 存在 
是 必要 的 。 测 试 集 用 来 衔 量 一 个 完整 建 好 的 模型 ， 意 味 着 这 个 模型 在 之 前 就 被 认定 为 已 经 调整 
到 最 优 , 而 这 个 优化 的 过 程 就 是 通过 验证 集 实现 的 。 如 果 我 们 延续 上 文中 对 训练 集 和 测试 集 的 
比喻 ， 验 证 集 就 相当 于 考 前 的 模拟 测试 。 








4.2.6 机 器 学 习 的 任务 流程 


一 个 完整 的 任务 流程 大 致 可 分 为 如 图 4-9 所 示 的 6 个 步骤 。 注 意 这 个 流程 只 是 一 般 的 思路 ， 
具体 问题 会 有 各 自 的 差异 和 侧重 。 





图 4-9 机 器 学 习 任务 流程 图 


一 般 来 说 ,在 “数据 导入 ”上 , 机 器 学 习 算法 读 入 的 是 像 表 4-2 一 样 的 结构 化 数据 (Structured 
Data) 。 在 结构 化 数据 中 ， 特 征 都 是 以 列 的 形式 一 条 一 条 展开 的 。 但 是 在 图 像 识别 、 语 音 识别 
等 任务 中 ， 原 始 数据 以 图 片 或 音频 的 形式 出 现 ， 所 谓 的 特征 我 们 是 “看 不 见 的 ”。 这 个 时 候 ， 
我 们 需要 将 这 些 原始 信息 转化 为 结构 化 的 形式 。 


“3 HUS 


在 拿 到 任务 和 数据 后 ,应 该 先 做 数据 预 处 理 的 基本 流程 , 包括 探索 性 分 析 、 数 据 清洗 和 特 
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征 工程 。 本 节 阐 述 探索 性 分 析 的 目的 和 途径 、 数据 清洗 的 常见 类 型 和 手段 、 特 征 工程 的 重要 性 
和 常见 方法 。 
4.3.1 探索 性 分 析 


探索 性 分 析 (Exploratory Analysis) ,或 者 叫 探索 性 数据 分 析 (Exploratory Data Analysis) 
是 通过 图 表 等 可 视 化 工具 对 原始 数据 (Raw Data) 进行 大 致 了 解 和 初步 分 析 的 过 程 。 探 索性 分 
析 的 目的 是 让 我 们 对 陌生 的 数据 集 有 个 直观 和 感性 的 认识 ， 从 而 在 庞大 的 数据 集中 发 现 有 价 
值 、 值 得 挖掘 的 信息 ， 找 出 数据 集中 的 “亮点 ”。 具 体 而 言 ， 通 过 探索 性 分 析 ， 我 们 可 以 : 


e 了 解数 据 集 的 基本 信息 。 
e ”给 数据 清洗 提供 方向 。 
e “为 特征 工程 提供 方向 。 


探索 性 分 析 是 我 们 在 拿 到 数据 集 还 没有 头绪 的 时 候 可 以 尝试 的 手段 。 探 索性 分 析 要 避免 时 
间 过 长 ， 毕 竟 我 们 的 目的 是 对 数据 进行 初步 探索 ， 分 析 工 作 的 大 头 在 后 面 。 


43.2 ”数据 清洗 

好 的 数据 总 是 比 好 的 算法 要 强 得 多 (Better data beats fancier algorithms) 。 这 人 句 话 送 给 初 
学 者 是 最 合适 不 过 的 。 任 何 想 从 事 机 器 学 习 的 数据 分 析 师 ,首先 要 记 住 这 句 话 。 如 果 数 据 质量 
差 ， 杂 乱 无 章 ， 即 使 再 好 的 算法 也 没有 用 ， 就 好 比 加 工 垃圾 一 样 ， 用 再 先进 的 技术 加 工 出 来 的 
成 品 也 是 垃圾 (Garbage in, garbage out) 。 之 所 以 要 进行 数据 清洗 ， 是 因为 在 现实 生活 中 ， 
我 们 遇 到 的 绝 大 多 数 数据 集 都 是 “不 干净 的 ”。 比 如 会 出 现 以 下 情形 〈 见 表 4-3) : 


e ”存在 重复 记录 的 数据 

比如 人 口 数据 中 同一 个 人 有 两 条 完全 相同 的 记录 。 

e 存在 不 相关 记录 

比如 我 们 只 关注 中 国人 口 数据 ， 但 数据 集中 有 美国 人 的 信息 。 
e 无 用 的 特征 信息 

例如 身份 人 D 等 一 些 显然 不 会 对 结果 有 影响 的 编号 类 数据 。 
@ 文字 拼写 错误 

一 些 比较 明显 的 信息 输入 错误 。 

€ ”信息 格式 不 统一 


例如 大 小 写 不 一 致 ， 比 如 “beijing” 和 “Beijing” 应 该 属 同一 类 。 表述 形式 不 统一 ， 比 
如 “陕西 省 ”和 “陕西 ”也 应 该 统一 成 一 种 。 
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e JERR BAHE (outlier) 
比如 某 个 人 的 年 龄 数据 显示 为 175。 
e 缺失 数据 
表格 中 有 一 些 信息 空缺 ， 没 有 记录 ， 如 表 4-3 所 示 。 
表 4-3 人 口 信息 : 杂乱 的 数据 




















*NaN 表示 缺失 数据 。 


设想 一 下 ， 假 如 我 们 遇 到 表 4-3 这 样 的 原始 数据 ， 想 必 一 定 会 很 头疼 吧 。 如 果 不 做 数据 清 
洗 ， 后 面 的 模型 分 析 等 操作 根本 就 是 寸步 难 行 。 然 而 数据 乱 不 等 于 它 没有 分 析 价值 ， 只 要 经 过 
专业 的 数据 清洗 和 特征 工程 处 理 , 我们 仍然 能 得 到 出 色 的 分 析 效 果 。 现 实 中 数据 来 源 纷 杂 多 样 ， 
绝 大 多 数 做 机 器 学 习 的 人 都 需要 花费 大 量 时 间 进 行 数据 预 处 理 和 清洗 。 

那么 ， 如 何 清洗 数据 呢 ? 对 于 离 群 值 ( 见 图 4-10) ， 很 多 人 会 把 离 群 值 所 在 的 记录 去 掉 
或 者 用 缺失 值 代替 , 但 其 实 很 多 时 候 这 样 做 并 不 是 最 好 的 选择 。 离 群 值 通常 指 样本 中 偏离 均值 
较 大 的 数据 ,在 图 像 中 通常 处 于 “孤立 ”的 位 置 。 离 群 值 所 表示 的 数据 很 可 能 是 有 问题 的 。 然 
而 , 离 群 值 在 被 证 明 “ 有 罪 ”之 前 都 是 清白 的 , 仅 当 有 确切 、 合适 的 理由 的 时 候 才 可 以 去 掉 它 ， 
并 且 这 样 做 能 够 提高 模型 的 预测 效果 。 因 为 “数值 太 大 ”， 草 率 地 将 其 去 掉 是 不 可 取 的 ， 因 为 
这 个 “大 数值 ” 本身 可 能 包含 了 一 定 信息 。 最 后 无 论 怎 样 ， 离 群 值 所 在 行 的 其 他 特征 数据 依然 
是 清白 的 ， 所 以 这 一 条 记录 不 能 因为 一 个 特征 出 现 离 群 值 就 去 掉 。 


i 4 


8000 s 
6000 





4000: 





ia al 
20.40. 60 80 100 
图 4-10 ”高 群 值 实例 
对 于 缺失 值 ， 有 几 种 常见 的 处 理 方式 。 第 一 种 处 理 方式 是 用 均值 或 者 众 数 等 进行 填充 。 这 


样 做 的 好 处 是 比较 快捷 、 方 便 ， 但 可 能 不 是 最 合理 的 方式 。 当 缺失 值 比例 较 大 时 ， 这 样 做 等 于 
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人 为 地 向 数据 集中 添加 了 噪声 ， 因 为 这 些 数 据 并 不 是 真实 、 准 确 的 信息 ， 从 而 可 能 会 影响 我 们 
对 结论 的 判断 。 类 似 的 填充 方式 还 有 根据 前 后 数值 填充 、 插 值 填充 、 模 型 拟 合 填 充 等 。 第 二 种 
处 理 方式 是 去 掉 该 特征 。 当 一 个 特征 大 部 分 值 都 缺失 时 , 如 果 我 们 认为 这 个 特征 对 分 析 没 有 帮 
D, 去 掉 该 特征 也 并 非 不 是 一 个 可 取 的 方法 。 第 三 种 处 理 方式 是 保留 缺失 值 的 信息 。 对 于 分 类 
型 变量 ， 我 们 可 以 将 缺失 值 作为 新 的 一 类 。 


4.3.3 ”特征 工程 


特征 工程 (Feature Engineering) 又 称 特征 提取 ， 是 机 器 学 习 建 模 之 前 的 一 个 重要 步骤 。 前 
文 提 到 ， 机 器 学 习 的 本 质 是 要 找 从 x 到 y 的 映射 ， 我 们 最 终 的 目标 是 输出 y。 如 果 x“ 不 给 力 ” 
的 话 ， 后 面 的 努力 往往 会 成 为 徒劳 。 特 征 工程 就 是 从 原始 数据 中 找到 合适 的 特征 集 x 的 过 程 。 

在 很 多 机 器 学 习 任务 中 , 特征 工程 是 最 重要 ,也 是 最 耗 时 的 环节 ， 其 重要 性 远 远 超过 建 模 
和 训练 。 然 而 这 个 过 程 最 容易 被 初学 者 忽视 。 特 征 工程 是 漫长 而 艰苦 的 过 程 。 在 Kaggle 数据 
科学 竞赛 中 ， 选 手 们 平均 花 在 构建 特征 集 的 时 间 在 70% 以 上 。 一 个 好 的 特征 集 通常 能 战胜 一 
个 好 的 模型 或 者 算法 。 
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jg 型 
e 
本 章 我 们 阐述 模型 和 算法 的 含义 ， 了 解 一 个 模型 是 如 何 训练 出 来 的 ,了 解 参数 的 概念 和 在 


模型 中 的 地 位 。 本 章 还 将 学 习 机 器 学 习 最 经 典 的 模型 一 一 线性 回归 , 用 计算 机 实战 操作 解决 机 
器 学 习 问题 ， 了 解 Python 机 器 学 习 库 skleam 基本 模式 。 





什么 是 模型 


下 面 通过 一 个 具体 的 案例 来 认识 机 器 学 习 中 的 重要 概念 
怎样 运作 的 。 





模型 ,了 解 模 型 的 作用 及 它 是 


K 5-1 是 从 美国 城市 餐厅 小 费 数据 集中 节选 的 数据 , 我 们 通过 图 5-1 的 关系 图 来 观察 小 费 
与 餐 费 之 间 的 关系 。 


表 5-1 从 美国 城市 餐厅 小 费 数 据 集中 节选 的 数据 


























图 5-1 小 费 与 餐 费 关系 图 


用 x 轴 表示 餐 费 ，y 轴 表示 小 费 ， 通 过 观察 散 点 图 可 以 看 出 ，y 随 着 x 的 增加 而 增加 ， 并 
且 近 似 成 比例 增加 。 熟 悉 美 国 小 费 制度 的 读者 应 该 知道 ,小费 通 常 和 和 餐 费 成 正比 , 根据 顾客 对 
用 餐 服务 的 满意 程度 ， 金 额 一 般 为 餐 费 的 10%~20%。 因 此 ， 我 们 考虑 用 线性 表达 式 来 刻画 x 
与 y 之 间 的 关系 : 


y=a0+al *x (QD 


上 述 公式 就 是 最 简单 的 线性 回归 (Linear Regression) 模型 。 因 为 只 有 一 个 自 变量 x, Br 
以 叫 作 一 元 线性 回归 。 下 面 我 们 以 这 个 一 元 线性 回归 为 例 ,来 看 在 机 器 学 习 中 模型 究竟 是 什么 ， 
以 及 是 怎么 运作 的 。 

公式 (1) 所 表述 的 y 与 x 之 间 的 关系 就 是 这 个 任务 中 我 们 所 用 的 模型 。 对 于 模型 的 概念 ， 
我 们 可 以 这 样 理解 , 它 刻画 了 因 变 量 y 和 自 变 量 x 之 间 的 客观 关系 , My 与 x 之 间 存 在 这 样 一 
种 形式 的 客观 规律 在 约束 。 具 体 来 说 ，y 约 等 于 某 个 数 乘 以 x， 再 加 上 另 一 个 数 。 使 用 这 个 模 
型 ， 就 意味 着 我 们 认定 样本 数据 服从 这 样 一 个 规律 。 换 句 话 说 ， 模 型 是 对 处 理 变量 关系 的 某 种 
假设 。 在 机 器 学 习 中 ，al 叫 作 权重 (weight) ，a0 叫 作 偏差 (bias) ，x 是 一 个 特征 (feature) , 
而 y 是 预测 的 标签 。 训 练 一 个 模型 就 是 从 训练 数据 中 确定 所 有 权重 和 偏差 的 最 佳 值 。 如 图 5-2 
所 示 ， 箭 头 部 分 表示 了 预测 值 和 真实 值 之 间 的 差距 ， 这 叫 误差 (loss) 。 如 果 这 个 模型 很 完美 ， 
那么 误差 应 该 接近 0。 训 练 的 目标 是 找到 让 误差 最 小 的 权重 和 偏差 。 


X 


图 5-2 误差 (loss) 
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需要 指出 的 是 ，《〈1) 公式 在 统计 学 上 不 是 严谨 的 写法 ， 但 我 们 在 讨论 机 器 学 习 时 可 以 这 
样 简写 。y 与 x 在 统计 学 意义 上 的 关系 可 以 由 下 式 给 出 : 


b 


aY 


或 


y=a0+alx+ epsilon 


E(yx)- a0-alx 


第 一 个 式 子 中 的 epsilon 是 误差 项 ， 通 常服 从 标准 正 态 分 布 。 第 二 个 式 子 的 含义 与 第 一 个 
相同 ，y 在 给 定 x 的 情况 下 服从 条 件 正 态 分 布 ， 并 且 条 件 期 望 是 a0 + alx。 

在 确定 参数 a0. al 之 前 ， 可 以 把 上 面 的 式 子 看 成 一 系列 模型 ， 或 者 称 为 模型 徐 (set of 
models) 。 这 些 参 数 一 旦 取 定 之 后 ， 这 个 式 子 就 成 为 一 个 确定 模型 。 比 如 y= 4+xX 和 y= 2x 
就 是 两 个 具体 的 模型 ， 相 对 应 的 参数 (a0, al) 分 别 为 (4,00 和 (0,2) 。 


误差 和 MSE 


假设 我 们 有 一 组 带 标签 的 样本 xy) ， 如 表 5-2 所 示 。 


表 5-2 一 组 带 标签 的 样本 


|j. — -]u- -| 
ly ts tr ]e [þh — [à  — j| 


让 我 们 尝试 用 下 面 两 个 模型 对 原样 本 数据 进行 预测 : 


模型 1: y = x + 4 
模型 2: y= 2x 


第 一 个 模型 的 预测 效果 如 表 5-3 所 示 。 


表 5-3 第 一 个 模型 的 预测 效果 








y 








误差 











1 





第 二 个 模型 的 预测 效果 如 表 5-4 所 示 。 


表 5-4 第 二 个 模型 的 预测 效果 
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误差 






































面 两 个 表 中 的 误差 是 预测 值 与 真实 值 之 间 的 距离 , 描述 了 预测 值 与 真实 值 之 间 的 偏离 程 


度 。 为 了 评价 模型 的 拟 合 效果 ， 我 们 需要 计算 均 方 误差 (Mean Squared Error; MSE) . 3377 
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误差 是 所 有 误差 平方 的 平均 值 。 例 如 上 述 两 个 模型 的 均 方 误差 分 别 为 

MSEI = (1^2 0^2 +0^2+(-1) ^24 (C3/2)/5 - M/S 

MSE2 = ( (y2 + (-1y2 + 1^2 + 1^2 - 0/2 )/ 5 — 4/5 

均 方 误差 通常 简称 为 MSE， 是 回归 模型 中 极为 重要 的 概念 ， 它 描绘 了 整个 考察 的 样本 集 
中 预测 值 和 实际 值 的 平均 偏离 程度 。 在 回归 任务 中 ， 我 们 希望 MSE 尽 可 能 的 小 。MSE 越 小 ， 
说 明 模 型 的 拟 合 效果 越 好 。 就 上 述 两 个 模型 相 比 ，y=2x 的 拟 合 效果 更 优 ， 也 就 是 说 它 更 接近 
样本 数据 的 分 布 规律 。 





5.3 模 型 的 训练 


模型 的 训练 就 是 参数 的 求解 ， 即 算法 。 那 么 ， 如 何 确定 参数 ? 回 到 前 面 的 小 费 的 例子 : 


y = a0 + al*x 


我 们 现在 已 经 认定 y 5 x 存在 上 述 的 线性 关系 ， 但 我 们 还 不 知道 a0、al 的 值 。 如 何 确 定 
它们 ? 这 就 需要 我 们 的 样本 集 出 场 。 我 们 想 要 找到 最 合适 的 ao、al， 使 得 上 述 公式 能 最 好 地 
拟 合 样本 集 数据 的 特征 。 这 就 是 所 谓 的 机 器 学 习 算法 。 它 就 是 检查 所 有 的 样本 数据 ， 从 而 找到 
一 个 模型 ， 这 个 模型 的 误差 尽 可 能 小 。 简 单 来 说 ， 通 过 算法 来 求解 参数 。 比 如 ， 找 到 一 组 参数 
值 (a0, aD) ， 使 得 均 方 误差 最 小 。 模 型 训练 的 目标 就 是 找到 误差 尽 可 能 小 的 参数 。 

误差 函数 是 为 了 评估 模型 拟 合 的 好 坏 , 通常 用 误差 函数 来 度量 拟 合 的 程度 。 误差 函 数 极 小 
化 意味 着 拟 合 程度 最 好 ,对 应 的 模型 参数 即 为 最 优 参 数 。 在 线性 回归 中 ,误差 函数 可 以 是 上 述 
的 均 方 误差 。 


5.3.1 模型 与 算法 的 区 别 


在 前 文中 , 我 们 对 于 模型 和 算法 这 两 个 概念 的 界定 是 比较 模糊 的 , 事实 上 , 模型 和 算法 这 
两 个 概念 是 有 区 别 的 。 对 于 线性 回归 这 个 例子 来 说 可 以 这 样 理解 ， 用 来 描述 问题 、 定 义 变量 之 
间 关 系 的 公式 (1) 是 模型 本 身 ， 而 用 来 求解 模型 中 的 参数 的 “最 小 二 乘法 ” 则 可 以 看 成 是 算 
法 。 总 体 来 说 , 模型 用 来 描述 要 解决 的 问题 ,通常 为 一 个 或 一 系列 数学 表达 式 ; 而 算法 则 是 解 
决 这 个 问题 的 过 程 ， 用 于 求解 模型 中 待定 的 参数 ， 经 常会 通过 编程 来 实现 。 

针对 一 个 模型 ， 可 以 有 多 种 不 同 的 算法 来 求解 。 拿 线性 回归 来 说 ， 模 型 中 a0,al,…,am 是 
需要 求解 的 参数 ， 而 “最 小 二 乘法 ”( 又 称 最 小 平方 法 ， 最 小 化 误差 的 平方 ) 只 是 其 中 最 经 典 
的 一 种 求解 方法 ， 除 了 “最 小 二 乘法 ”之 外 ， 还 可 以 通过 极 大 似 然 估 计 等 方法 来 计算 。 不 同 模 
型 会 有 各 自 适合 的 算法 ,比如 求解 深度 学 习 模 型 中 的 参数 会 用 到 著名 的 梯度 下 降 算 法 。 不 同 的 
算法 可 能 会 有 截然 不 同 的 思想 ,比如 极 大 似 然 估 计 是 用 统计 学 思想 来 估计 的 , 而 梯度 下 降 法 的 
思路 则 是 利用 计算 机 反复 迭代 找到 最 优 值 。 
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5.32 JiJk(GE 


集 ， 


和 迭代 法 是 用 计算 机 解决 问题 的 一 种 基本 方法 。 比 如 ，5.1 节 中 的 公式 (1) ， 对 于 一 个 数据 
我 们 要 求解 最 佳 的 a0 和 al， 使 得 它 的 误差 最 小 〈 比 如 使 用 MSE 来 判断 ) o WA, 


法 就 是 利用 计算 机 运算 速度 快 、 适 合 做 重复 性 操作 的 特点 ， 让 计算 机 尝试 一 组 一 组 的 参数 值 
(a0,a1) ， 在 同一 个 数据 集 上 重复 计算 误差 。 在 每 次 执行 一 组 参数 后 ， 就 换 到 一 组 新 的 参数 
〈 见 图 5-3) 。 机 器 学 习 算法 能 够 使 用 这 个 迭代 过 程 来 训练 模型 。 整 个 迭代 一 直 继续 ， 直 到 找 


到 二 


f, 


组 误差 足够 小 的 参数 值 。 


E 更 改 模型 参数 值 
A 
d wow À g ^ 


M 
特征 值 “ 一 —M 


"a 计算 误差 
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图 5-3 和 迭代 法 
简单 来 说 ， 利 用 迭代 算法 解决 问题 需要 做 好 以 下 三 个 方面 的 工作 。 
1. 确定 迭代 变量 


TE n] UU EGERIT [e] rp , 至 少 存在 一 个 直接 或 间接 地 不 断 由 旧 值 递 推出 新 值 的 变 
这 个 变量 就 是 迭代 变量 。 在 上 述 例子 中 ，a0 和 al 是 两 个 迭代 变量 。 


2. 建立 迭代 关系 式 
所 谓 迭 代 关 系 式 ， 是 指 从 变量 (如 ao) 的 前 一 个 值 推出 其 下 一 个 值 的 公式 〈 或 关系 ) 。 


迭代 关系 式 的 建立 是 解决 欠 代 问题 的 关键 ， 通 常 可 以 使 用 递 推 或 倒 推 的 方法 来 完成 。 


3. xis ett 
在 什么 时 候 结束 迭代 过 程 是 编写 迭代 程序 必须 考虑 的 问题 。 不 能 让 迭代 过 程 无 休止 地 重复 


执行 下 去 。 迁 代 过 程 的 控制 通常 可 分 为 两 种 情况 : 一 种 是 所 需 的 迭代 次 数 是 一 个 确定 的 值 ， 可 
以 计算 出 来 ; 另 一 种 是 所 需 的 迭代 次 数 无 法 确定 。 对 于 前 一 种 情况 , 可 以 构建 一 个 固定 次 数 的 
循环 来 实现 对 迭代 过 程 的 控制 ; 对 于 后 一 种 情况 , 需要 进一步 分 析出 用 来 结束 欠 代 过 程 的 条 件 。 
在 机 器 学 习 中 ， 这 个 结束 的 条 件 就 是 误差 (比如 MSE) 。 只 要 误差 达到 要 求 ， 就 可 以 结束 过 


代 。 


一 般 情 况 下 ， 误 差 不 再 有 大 的 变化 ， 我 们 就 可 以 终止 欠 代 ， 然 后 说 模型 已 经 是 收 往 


(converged) 的 了 。 
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5.7. eerie 


在 5.32 节 的 迭代 法 中 ， 针 对 图 5-3 中 的 “更 改 模型 参数 值 ”， 我 们 并 没有 说 明 下 一 组 新 
参数 值 怎么 出 来 。 假 定 我 们 有 足够 的 时 间 来 遍历 各 个 al 的 可 能 值 ， 那 么 对 于 线性 回归 函数 来 
说 ， 误 差 和 al 值 之 间 的 关系 如 图 5-4 所 示 。 


27 


«—OO— M9 
al 值 


5-4 ”回归 的 收敛 


误差 的 最 小 值 就 是 误差 函数 收敛 的 位 置 。 如 果 我 们 尝试 每 个 al 值 去 找到 这 个 收敛 点 ， 效 
率 就 低 了 。 在 机 器 学 习 中 ， 有 一 个 更 好 的 方法 ， 那 就 是 梯度 下 降 法 (Gradient Descent) 。 

如 图 5-5 所 示 ， 在 梯度 下 降 法 中 ， 首 先 选择 一 个 al 的 起 点 值 。 这 个 起 点 值 可 以 是 0， 也 可 以 
是 一 个 随机 数 ， 这 些 者 没关系， 我们 的 目的 是 求 误差 的 最 小 值 。 下 面 来 看 梯度 下 降 的 一 个 直观 的 
解释 。 比 如 我 们 在 一 座 大 山上 的 某 处 位 置 ， 由 于 我 们 不 知道 怎么 下 山 ， 于 是 决定 走 一 步 算 一 步 ， 
也 就 是 在 每 走 到 一 个 位 置 的 时 候 ， 求 解 当前 位 置 的 梯度 ， 沿 着 梯度 的 负 方 向 ， 也 就 是 当前 最 陡峭 
的 方向 向 下 走 一 步 ， 然 后 继续 求解 当前 位 置 的 梯度 ， 从 这 一 步 所 在 的 位 置 沿 着 最 陡峭 最 易 下 山 的 
方向 走 一 步 。 这 样 一 步 步 地 走 下 去 , 一直 走 到 山脚 。 当 然 这 样 走 下 去 ， 有 可 能 我 们 不 能 走 到 山脚 ， 
而 是 到 了 某 一 个 局 部 的 山峰 低 处 。 从 上 面 的 解释 可 以 看 出 ， 梯 度 下 降 不 一 定 能 够 找到 全 局 的 最 优 
解 ， 有 可 能 是 一 个 局 部 最 优 解 。 当 然 ， 如 果 误 差 函 数 是 凸 (convex) 函数 ， 梯 度 下 降 法 得 到 的 解 
就 一 定 是 全 局 最 优 解 ， 因 为 最 小 值 的 地 方 就 是 梯度 为 0 的 地 方 。 





图 5-5 梯度 下 降 法 
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541 步 长 


从 上 面 的 例子 可 以 看 出 ， 下 山 或 者 寻找 最 小 值 取决 于 两 个 因素 : 


CD 每 步 你 走 哪个 方向 。 如 图 5-4 所 示 ， 从 起 点 到 下 一 个 点 ， 选 择 负 梯度 方向 。 

(2) 每 步 你 走 多 远 ， 这 叫 步 长 〈step size， 也 叫 learning rate) 。 步 长 决定 了 在 梯度 下 降 
迭代 的 过 程 中 , 每 一 步 沿 梯度 负 方 向 前 进 的 长 度 。 用 上 面 下 山 的 例子 , 步 长 就 是 在 当前 这 一 步 
所 在 位 置 沿 着 最 陡峭 最 易 下 山 的 位 置 走 的 那 一 步 的 长 度 ， 如 图 5-5 所 示 。 


在 机 器 学 习 算法 中 , 在 最 小 化 误差 函数 时 ， 通 过 梯度 下 降 法 来 一 步 步 地 和 代 求解 ， 最 终 得 
到 最 小 化 的 误差 和 模型 参数 值 。 

上 述 的 步 长 是 一 个 超 参数 CHyperparameter) 。 所 谓 超 参数 ， 是 模型 的 一 些 细 化 特征 。 超 
参数 与 参数 不 同 , 它们 本 质 的 区 别 是 , 参数 是 在 模型 中 训练 出 来 的 , 而 超 参数 是 不 可 被 训练 的 。 
绝 大 多 数 机 器 学 习 模型 都 有 超 参数 ， 超 参数 是 需要 我 们 在 训练 之 前 人 为 指定 的 。 


5.4.2 ”优化 步 长 
在 使 用 梯度 下 降 时 ， 需 要 进行 调 优 。 哪 些 地 方 需要 调 优 呢 ? 


d) 算法 的 步 长 选择 。 在 前 面 的 算法 描述 中 ， 可 以 先 取 步 长 为 1， 但 是 实际 上 取 值 取决 
于 数据 样本 ， 可 以 多 取 一 些 值 ， 从 大 到 小 ， 分 别 运行 算法 ， 看 看 迭代 效果 ， 如 果 误 差 函数 在 变 
小 , 说 明 取 值 有 效 ， 和 否则 要 增 大 步 长 。 步 长 太 小 , 迭代 速度 太 慢 , 很 长 时 间 算 法 都 不 能 结束 ( 见 
图 5-6) 。 步 长 太 大 会 导致 迭代 过 快 ， 甚 至 有 可 能 错过 最 优 解 ( 见 图 5-7) 。 所 以 算法 的 步 长 
需要 多 次 运行 后 才能 得 到 一 个 较为 优 的 值 。 

(2) 算法 参数 的 初始 值 选择 。 初始 值 不 同 ， 获 得 的 最 小 值 也 有 可 能 不 同 ， 因 此 梯度 下 降 
求 得 的 只 是 局 部 最 小 值 。 当 然 ， 如果 误差 函数 是 凸 函数 ， 则 一 定 是 最 优 解 。 由 于 有 局 部 最 优 解 
的 风险 ， 需 要 多 次 用 不 同 初始 值 运行 算法 ， 选 择 误差 函数 最 小 化 的 初 值 。 





5-6 步 长 太 小 
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第 5 章 模型 





图 5-7 BEAK 


总 之 , 对 于 一 个 成 功 的 模型 训练 来 说 ,并 不 一 定 要 找到 那个 最 完美 的 步 长 。 我们 的 目标 是 
找到 一 个 足够 大 的 步 长 ， 这 使 得 梯度 下 降 能 够 高 效 收敛 。 


5.4.3 三 类 梯度 下 降 法 
有 三 类 常见 的 梯度 下 降 法 ， 下 面 一 一 进行 介绍 。 
e 批量 梯度 下 降 法 


批量 梯度 下 降 法 (Batch Gradient Descent) 是 梯度 下 降 法 最 常用 的 形式 ， 具 体 做 法 就 是 在 
更 新 参数 时 使 用 所 有 的 样本 来 进行 更 新 , 这 个 方法 对 应 于 前 面 的 线性 回归 的 梯度 下 降 算法 , 也 
就 是 说 前 面 的 梯度 下 降 算 法 就 是 批量 梯度 下 降 法 。 由 于 我 们 有 m 个 样本 ， 这 里 求 梯度 的 时 候 
就 用 了 所 有 m 个 样本 的 梯度 数据 。 

o 随机 梯度 下 降 法 

随机 梯度 下 降 法 〈Stochastic Gradient Descent) 其 实 和 批量 梯度 下 降 法 的 原理 类 似 ， 区 别 
在 于 求 梯度 时 没有 用 所 有 的 m 个 样本 的 数据 ， 而 是 仅仅 选取 一 个 样本 j 来 求 梯度 。 随 机 梯度 
下 降 法 和 批量 梯度 下 降 法 是 两 个 极端 , 一 个 采用 所 有 数据 来 梯度 下 降 , 一 个 用 一 个 样本 来 梯度 
下 降 。 自 然 各 自 的 优 缺 点 都 非常 突出 。 对 于 训练 速度 来 说 ， 随 机 梯度 下 降 法 由 于 每 次 仅 采用 一 
个 样本 来 迭代 , 训练 速度 很 快 ， 而 批量 梯度 下 降 法 在 样本 量 很 大 的 时 候 ,， 训 练 速度 不 能 让 人 满 
意 。 对 于 准确 度 来 说 ， 随 机 梯度 下 降 法 仅 用 一 个 样本 决定 梯度 方向 ， 导 致 解 很 有 可 能 不 是 最 优 
的 。 对 于 收敛 速度 来 说 ， 由 于 随机 梯度 下 降 法 一 次 迭代 一 个 样本 ， 导 致 迭代 方向 变化 很 大 ,不 
能 很 快 地 收敛 到 局 部 最 优 解 。 

那么 ,有 没有 一 个 中 庸 的 办 法 能 够 结合 两 种 方法 的 优点 呢 ? 有 , 这 就 是 小 批量 梯度 下 降 法 。 


@ ”小 批量 随机 梯度 下 降 法 


小 批量 随机 梯度 下 降 法 CMini-Batch Stochastic Gradient Descent, Mini-Batch SGD) 是 批 
量 梯度 下 降 法 和 随机 梯度 下 降 法 的 折 中 ， 也 就 是 对 于 m 个 样本 ， 我 们 采用 x 个 样子 来 迭代 ， 
1<x<m。 一 般 可 以 取 10 到 1000 之 间 的 随机 数 ， 当 然 根 据 样 本 的 数据 ， 可 以 调整 这 个 x 的 值 。 
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5.44 ”梯度 下 降 的 详细 算法 


本 节 内 容 需 要 读者 具有 一 定 的 微 积分 基础 。 读 者 可 跳 过 本 节 内 容 。 在 微 积分 里 面 ,对 多 元 
函数 的 参数 求 6 偏 导数 ， 把 求 得 的 各 个 参数 的 偏 导 数 以 向 量 的 形式 写 出 来 ， 就 是 梯度 。 比 如 函 
数 f(x,y)， 分别 对 x、y 求 偏 导数 ， 求 得 的 梯度 向 量 就 是 (Gf/6x, 6f/6y)， 简 称 grad f(x,y)。 对 于 在 
点 (xo.yo) 的 具体 梯度 向 量 就 是 (3Baxo, 6f/6yo)， 如 果 是 3 个 参数 的 向 量 梯度 ， 就 是 (Gf/6x, 6fy6y， 
61/6z)， 以 此 类 推 。 那么 ， 这 个 梯度 向 量 求 出 来 有 什么 意义 呢 ?” 从 几何 意义 上 讲 ， 就 是 函数 变 
化 增加 最 快 的 地 方 。 具 体 来 说 ， 对 于 函数 f(x,y)， 在 点 (xo,yo)， 沿 着 梯度 向 量 的 方向 ， 就 是 
(6f/6xo, 6f/6yo) 的 方向 ， 是 f(x,y) 增 加 最 快 的 地 方 。 或 者 说 ， 沿 着 梯度 向 量 的 方向 更 加 容易 找到 
函数 的 最 大 值 。 反 过 来 说 ， 沿 着 梯度 向 量 相反 的 方向 ， 也 就 是 -fx 6f/6yo) 的 方向 ， 梯 度 减 
小 最 快 ， 也 就 更 加 容易 找到 函数 的 最 小 值 。 

梯度 下 降 法 的 算法 可 以 有 代数 法 和 和 矩 阵 法 (也 称 向 量 法 ) 两 种 表示 ， 如 果 对 和 矩阵 分 析 不 熟 
悉 ， 则 代数 法 更 加 容易 理解 。 本 节 以 代数 法 为 例 来 讲解 算法 。 

1. 先决 条 件 : 确认 优化 模型 的 假设 函数 和 误差 函数 

比如 对 于 线性 回归 , 假设 函数 表示 为 he(x1,x2,…,xa)=0o+01X1+...+6nxn, 其 中 0; G = 0,1,2,.…,n) 
为 模型 参数 ，xi (i = 0,1,2,…n) 为 每 个 样本 的 n 个 特征 值 。 这 个 表示 可 以 简化 ,我们 增加 一 个 特 
征 xo=1， 这 样 he(xoxl…:xn)j=>9ixi， 其 中 i=0~n。 同 样 是 线性 回归 ， 对 应 上 面 的 假设 函数 ， 误 
差 函 数 可 以 使 用 样本 输出 和 假设 函数 的 差 取 平方 。 


2. 算法 相关 参数 初始 化 


主要 是 初始 化 90,01,…,9n， 以 及 算法 终止 距离 和 步 长 a。 在 没有 任何 先 验 知识 的 时 候 , 我 
可 以 将 所 有 的 0 初始 化 为 0， 将 步 长 初始 化 为 1。 在 调 优 的 时 候 再 优化 。 

3. 算法 过 程 

(1) 确定 当前 位 置 的 误差 函数 的 梯度 。 在 微 积分 里 面 ， 对 多 元 函数 的 参数 求 6 偏 导数 ， 把 
求 得 的 各 个 参数 的 偏 导 数 以 向 量 的 形式 写 出 来 ， 就 是 梯度 。 对 于 0;， 其 梯度 表达 式 为 6f/60;， 
其 中 函数 f 可 以 是 均 方差 函数 。 

(2) 用 步 长 乘 以 误差 (损失 ) 函数 的 梯度 得 到 当前 位 置 下 降 的 距离 ， 即 对 应 于 前 面 登 山 
例子 中 的 某 一 步 。 

G) 确定 是 否 所 有 梯度 下 降 的 距离 都 小 于 e. 如果 小 于 s， 则 算法 终止 ， 当 前 所 有 的 OF 
(三 0,1,.…n) 即 为 最 终结 果 。 否 则 进入 步骤 4。 

(4) 更 新 所 有 的 9， 对 于 0;， 其 更 新 表达 式 如 下 。 更 新 完毕 后 继续 转 入 步骤 (1) 。 


0: 二 0 一 当前 位 置 下 降 的 距离 


在 机 器 学 习 中 ,无 约束 优化 算法 除了 梯度 下 降 法 以 外 , 还 有 前 面 提 到 的 最 小 二 乘法 ， 此 外 
还 有 牛顿 法 和 拟 牛 顿 法 。 梯 度 下 降 法 和 最 小 二 乘法 相 比 ， 梯 度 下 降 法 需要 选择 步 长 ， 而 最 小 二 
乘法 不 需要 。 梯 度 下 降 法 是 迭代 求解 ， 最 小 二 乘法 是 计算 解析 解 。 如 果 样 本 量 不 算 很 大 ， 且 存 
在 解析 解 ， 最 小 二 乘法 比 起 梯度 下 降 法 有 优势 ， 计 算 速 度 很 快 。 但 是 如 果 样 本 量 很 大 ， 用 最 小 


154 


SHOE T T BER BBA AE PE, 这 时 就 很 难 或 者 很 慢 才 能 求解 了 , BEE AREF 
降 法 比较 有 优势 。 梯 度 下 降 法 和 牛顿 法 / 拟 牛顿 法 相 比 ， 两 者 都 是 迭代 求解 ， 不 过 梯度 下 降 法 
是 梯度 求解 ， 而 牛顿 法 / 拟 牛 顿 法 是 用 二 阶 的 海 森 算 阵 的 逆 和 矩阵 或 伪 逆 矩阵 求解 。 相 对 而 言 ， 
使 用 牛顿 法 / 拟 牛 顿 法 收敛 更 快 ， 但 是 每 次 迭代 的 时 间 比 梯度 下 降 法 长 。 


,模型 的 拟 合 效果 


通过 学 习 本 节 内 容 , 我 们 将 了 解 欠 拟 合 和 过 拟 合 及 其 严重 性 ,认识 形成 过 拟 合 的 原因 ， 以 
及 如 何 解 决 过 拟 合 。 


551 欠 拟 合 与 过 拟 合 


在 如 图 5-8 所 示 的 分 类 问题 中 ,我 们 的 目标 是 找到 一 个 分 类 器 ,分割 两 种 标签 的 数据 。 我 
们 用 肉眼 不 难看 出 ， 蓝 色 标签 (圆圈 ) 的 点 集中 在 图 的 右上 区 域 ,中 间 的 图 是 最 为 合适 的 分 类 
器 。 左 图 用 一 条 直线 分 割 平面 ,模型 过 于 简单 , 对 直线 右 侧 的 红色 标签 数据 (又 又 ) 刻画 较 差 ， 
属于 欠 拟 合 (underfit) ， 而 右 图 则 用 了 比较 复杂 的 模型 ， 对 样本 集 的 数据 全 部 照顾 ， 属 于 过 
拟 合 (overfit) 。 过 拟 合 是 参数 过 多 ， 对 训练 集 的 匹配 度 太 高 、 太 准确 ， 以 至 于 在 后 面 的 预测 
过 程 中 可 能 会 导致 预测 值 非常 偏离 合适 的 值 ， 预 测 非 常 不 准确 。 中 间 的 图 是 合适 的 拟 合 。 





为 x, 
Bo © Man, d Pre a t ag t aan) SUR n. re + Re 
Gad t Anz, + heia + 
Cr 
Biss 拟 合 的 例子 


欠 拟 合 和 过 拟 合 都 是 应 当 尽 可 能 避免 的 。 欠 拟 合 会 让 我 们 的 模型 产生 较 大 的 偏差 (bias ) ， 
这 里 的 偏差 是 指 我 们 的 模型 描绘 的 数据 分 布 与 数据 的 客观 分 布 之 间 存在 差异 。 欠 拟 合 通常 是 因 
为 我 们 使 用 了 过 于 简单 的 模型 ， 比 如 线性 模型 ， 或 者 训练 的 时 间 不 够 。 而 过 拟 合 虽然 将 样本 集 
的 误差 降 到 最 低 ， 但 会 使 模型 产生 很 大 的 方差 (variance) ,方差 大 意味 着 当 新 的 数据 进来 时 ， 
模型 的 预测 准确 率 波动 会 比较 大 ,虽然 训练 集 预 测 能 力 很 好 , 但 对 未 知 的 测试 集 预测 效果 可 能 
会 很 差 。 过 拟 合 通常 是 因为 我 们 的 模型 过 于 复杂 。 
事实 上 , 在 实际 应 用 中 ,过 拟 合 的 问题 远 远 多 于 欠 拟 合 。 在 解决 问题 时 , 我 们 几乎 总 是 要 
考虑 和 处 理 过 拟 合 , 但 很 少 会 遇 到 欠 拟 合 。 这 是 因为 我 们 在 训练 模型 时 经 常会 采用 过 于 复杂 的 
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模型 ， 使 用 了 太 多 的 特征 (features〉 来 训练 ， 对 训练 集 的 匹配 度 非常 高 (误差 几乎 为 零 )， 
但 是 不 能 推广 到 其 他 未 知 数据 上 ， 也 就 是 对 于 训练 集 之 外 的 输入 不 能 做 出 正确 的 预测 。 

防止 过 拟 合 是 机 器 学 习 中 极其 重要 的 一 个 问题 ,重要 到 后 文 几乎 所 有 模型 讲解 中 都 会 提 到 
并 给 出 防止 过 拟 合 的 方法 , 可 以 说 如 果 没 有 处 理 好 过 拟 合 , 我 们 就 会 全 盘 皆 输 。 过 拟 合 是 绝对 
值得 我 们 花 相当 一 部 分 时 间 去 处 理 的 。 


5.5.2 ”过 拟 合 的 处 理 方法 


当 过 拟 合 发 生 时 , 我 们 的 模型 对 训练 集 数 据 的 预测 效果 很 好 , 但 对 测试 集 数据 的 预测 效果 
较 差 。 这 是 因为 模型 过 于 关注 训练 集 的 局 部 特征 ， 从 而 记 住 了 样本 集 的 噪声 ， 而 这 些 噪 声 并 不 
是 数据 分 布 的 真实 规律 ,所 以 出 现 了 训练 集 和 测试 集 准确 率 相差 较 大 的 情况 。 无论 多 优秀 的 模 
型 ， 如 果 我 们 不 去 防止 ， 都 可 能 出 现 过 拟 合 。 通 常 有 以 下 几 种 办 法 来 处 理 过 拟 合 问题 。 


COD 使 用 更 多 训练 数据 

引入 更 多 训练 数据 通常 会 降低 过 拟 合 。 训 练 数据 的 增加 总 是 会 为 机 器 学 习 带 来 正面 的 作 
用 ,降低 过 拟 合 就 是 最 大 的 好 处 之 一 。 数 据 量 越 大 ,意味 着 模型 训练 得 到 的 参数 方差 越 小 ， 模 
型 越 稳定 ， 因 此 会 降低 数据 集 发 生变 化 时 模型 效果 的 波动 ， 从 而 降低 过 拟 合 。 

虽然 增 大 训练 数据 量 是 “首选 ”, 但 很 多 时 候 获 得 更 多 数据 是 很 困难 的 。 如 果 无 法 引入 更 多 数 
Ti, 我 们 仍然 可 以 尝试 这 两 种 方法 : 第 一 种 ,将 数据 集中 更 多 的 数据 用 作 训 练 数据 ， 即 加 大 训练 集 
所 占 的 比例 ， 第 二 种 ， 通 过 数据 集 增强 (Data Augmentation). 的 方式 从 原始 数据 集中 “获得 ”更 多 
虚拟 数据 ， 如 通过 将 原始 图 片 旋 转 、 镜 像 及 色彩 变换 等 技巧 生成 更 多 图 片 用 作 训练 。 


(2) 使 用 正则 化 

正则 化 是 降低 过 拟 合 的 一 个 主要 技巧 。 正 则 化 是 通过 改变 误差 (损失 ) 函数 ,在 误差 函数 
原 有 的 基础 上 加 入 惩罚 项 。 惩 罚 项 和 参数 的 大 小 直接 相关 ， 当 我 们 使 用 过 多 的 参数 时 ， 这 个 惩 
罚 项 会 变 得 很 大 ， 从 而 可 以 防止 模型 过 于 复杂 。 常 见 的 正则 化 方法 包括 L1 和 工 2 正则 化 。 有 
关 这 两 种 正则 化 方法 会 在 后 面 的 章节 进行 详细 介绍 。 加 入 Ll 和 L2 惩罚 项 可 以 让 部 分 参数 什 
急剧 变 小 或 变 成 0， 以 达到 “压缩 ”参数 个 数 的 作用 。 

(3) Early Stopping 

Early Stopping 是 指 在 迭代 过 程 中 提前 结束 迭代 ， 从 而 防止 过 度 训练 的 手段 。 训 练 时 间 过 
长 ， 模 型 会 越 来 越 倾向 于 记 住 样本 集 的 全 部 内 容 ， 而 这 会 导致 过 拟 合 的 发 生 。 因此， 我 们 可 以 
在 迭代 训练 的 过 程 中 随时 观察 误差 (损失 ) 函数 的 变化 情况 , 如 果 发 现在 一 段 时 间 后 模型 效果 
没有 显著 提升 , 就 停止 训练 。 针对 神经 网 络 更 多 过 拟 合 的 解决 方法 也 会 在 后 面 的 章节 系统 性 的 
介绍 。 

(4) 使 用 集成 算法 

集成 算法 是 指 将 多 个 简单 模型 进行 平均 的 系统 性 方法 。 假设 我 们 有 10 个 模型 , 这 10 个 模 
型 单独 运作 都 容易 发 生 过 拟 合 ， 但 这 10 个 模型 平均 之 后 则 会 降低 过 拟 合 的 影响 。 就 好 比 评委 
打分 , 1 个 人 的 打分 经 常 是 不 稳定 的 , 多 个 人 投票 或 者 取 均 值 则 会 让 评分 变 得 更 加 公正 、 靠 谱 。 




















156 


这 里 读者 可 以 先 记 住 一 句 话 来 代表 集成 算法 的 思想 ， 叫 作 “众人 拾 柴火 焰 高 ”。 集 成 算法 可 以 
将 多 个 基础 算法 结合 在 一 起 ， 并 把 “集体 ”的 力量 发 挥 到 最 大 。 

C50. 减少 特征 的 数量 

减少 特征 的 数量 包括 人 工 手动 减少 特征 的 数量 和 使 用 模型 选择 算法 ,我 们 会 在 后 面 的 章节 
中 讲 到 。 








.外 ”模型 的 评估 与 改进 


通过 上 节 的 学 习 , 我 们 知道 为 了 防止 过 拟 合 , 需要 有 效 地 利用 验证 集 来 选择 表现 最 好 的 模 
型 。 我 们 顺 着 这 个 思路 进入 本 节 的 学 习 : 通过 验证 集 评价 、 选 取 和 改进 模型 。 


5.6.1 机 器 学 习 模型 的 评估 

要 评价 一 个 机 器 学 习 模型 的 表现 , 我 们 需要 一 个 具体 的 指标 来 评估 。 一 个 确实 的 量化 指标 
对 我 们 评价 和 选择 模型 具有 重要 的 参考 意义 。 对 于 回归 模型 来 说 ， 常 用 的 指标 为 MSE. MAE 
等 ， 对 于 分 类 模型 ， 常 用 指标 包括 准确 率 、 精 确 率 、 召 回 率 、F1-Score、ROC 曲线 和 AUC 等 。 
下 面 我 们 来 详细 介绍 这 些 概念 。 

1. 分 类 模型 的 评估 

绝 大 多 数 分 类 任务 都 是 二 分 类 任务 (binary classification problem) ， 即 类 别 只 有 两 种 : 0 或 1。 
对 于 一 个 二 分 类 问题 来 说 ， 根 据 预测 值 和 真实 值 分 类 ， 无 外 乎 出 现 表 5-5 所 示 的 4 种 情况 。 


表 5-5 ”根据 预测 值 和 真实 值 分 类 所 出 现 的 4 种 情况 


[| [seit 1 真实 类 别 : 0 
预测 类 别 ，1 





预测 类 别 : 0 FN (False Negative) TN (True Negative) 


对 于 分 类 问题 ， 最 直观 也 是 最 简单 的 评价 指标 就 是 准确 率 CAccuracy) ， 即 样本 中 有 多 大 
比例 被 我 们 预测 正确 。 准 确 率 等 于 预测 正确 的 样本 数 除 以 总 样本 数 ， 即 
(TP+TN)/(TP+TN+FP+FN)。 相 对 应 的 一 个 概念 是 错误 率 (Error/Misclassification Rate) ， 或 者 
叫 误差 率 ， 是 指 我 们 预测 错误 的 样本 数 所 占 的 比例 ， 误 差 率 = 1- 准 确 率 。 

使 用 准确 率 或 误差 率 作为 评价 指标 的 时 候 , 意味 着 我 们 将 两 种 分 类 类 别 平等 对 待 。 但 现实 
中 我 们 遇 到 的 二 分 类 任务 中 ,通常 两 种 分 类 类 别 并 不 像 “ 性 别 为 男 或 女 ”这 样 的 对 等 关系 ,而 
是 有 正 负 之 分 。 我 们 将 某 件 事情 发 生 、 有 具有 肯定 性 结果 对 应 为 类 别 1， 或 称 为 具有 正 值 ， 比 如 
药检 呈 阳 性、 天 气 预报 会 下 雨 、 信 用 贷款 会 违约 等 。 与 之 相对 应 的 分 类 结果 归 为 类 别 0， 即 事 
件 未 发 生 、 具 有 和 否定 性 的 结果 。 

当 我 们 要 差别 对 待 类 别 0 和 类 别 1 时 , 就 需要 懂得 精确 率 、 召 回 率 等 概念 , 这 也 是 我 们 引 
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入 表 5-5 的 原因 。 
精确 率 (Precision〉 的 定义 是 所 有 我 们 预测 为 正 的 样本 中 确实 为 正 值 的 比率 。 
精确 率 = TP/(TP+FP) 
AER (Recall) 是 指 所 有 真实 值 为 正 的 样本 中 被 我 们 预测 为 正 值 的 比率 。 
召回 率 = TP/(TP+EN) 
Fl-Score 综合 考虑 精确 率 与 召回 率 ， 等 于 二 者 的 调和 平均 值 ， 定 义 如 下 : 
Fl-Score = 2*precision*recall/(precision+recall) 


精确 率 和 准确 率 看 似 只 在 分 母 上 有 细微 差别 , 其 实 表达 的 意思 截然 不 同 , 它们 反映 了 分 类 
器 性 能 的 两 个 方面 。 之 所 以 有 两 个 概念 ， 是 因为 不 同 问题 中 我 们 关注 的 侧重 点 不 同 。 我们 来 看 
以 下 两 个 场景 。 


COD 罪犯 追踪 

在 人 脸 识别 罪犯 的 案例 中 ,通常 我 们 会 秉 着 “不 错 怪 任何 好 人 ”的 原则 ， 希 望 我 们 识别 出 
来 的 “罪犯 ”确实 全 部 是 真 的 罪犯 。 因 此 ， 我 们 要 让 精确 率 尽 可 能 高 ， 判 断 出 的 正 值 不 能 有 失 
误 。 虽 然 这 样 做 可 能 会 使 得 一 些 嫌犯 “逃脱 ”， 但 仍然 是 这 个 任务 中 可 以 接受 的 结果 ， 总 比 错 
将 好 人 当 作 犯人 产生 不 必要 的 麻烦 要 好 得 多 。 


(2) 地 震 检测 

对 于 地 震 的 预测 则 恰恰 相反 , 我 们 希望 当地 震 真实 发 生 时 我 们 能 预测 出 来 , 宁可 100 次 误 
报 95 次 , 将 5 次 地 震 全 部 预测 到 ， 而 不 要 只 预测 10 次 , 结果 漏 掉 5 次 中 的 2 次 。 在 这 个 情形 
中 ， 我 们 希望 召回 率 越 高 越 好 ， 哪 怕 牺 牲 一 定 的 精确 率 。 

2. 回归 模型 的 拟 合 效果 评估 

相 比 分 类 模型 ， 回 归 模 型 的 评价 指标 则 比较 简单 ， 最 常 使 用 的 指标 就 是 前 面 提 到 的 MSE。 
回忆 一 下 ，MSE 是 估计 值 与 真实 值 之 差 的 平方 和 取 均 值 再 开平 方 根 ， 用 来 量化 预测 值 和 真实 
值 的 偏离 程度 。 除 了 MSE 之 外 ， 有 时 也 会 用 MAE (Mean Absolute Error， 平 均 绝 对 误差 ) 。 
MAE 是 估计 值 与 真实 值 之 差 的 绝对 值 取 均 值 。MAE 看 起 来 似乎 比 MSE 更 直观 ， 但 远 不 及 
MSE 常用 。 这 主要 是 因为 MSE 作为 误差 (损失 ) 函数 是 可 导 的 ， 方 便 通 过 求 导 来 找 最 小 值 。 

3. 其 他 评价 指标 

除了 衡量 模型 的 准确 度 外 , 有 时 我 们 还 需要 关注 计算 能 力 相 关 的 一 些 指标 , 比如 运行 时 间 、 
占用 内 存 等 。 这 些 指标 虽然 重要 ， 但 通常 不 会 作为 优化 的 对 象 ， 而 是 作为 一 种 “条 件 指标 ” 进 
行 约束 ， 在 该 约束 下 使 得 我 们 要 优化 的 指标 〈 准 确 度 ) 尽 可 能 好 。 


5.6.2 ”机 器 学 习 算法 与 人 类 比较 


随 着 机 器 学 习 越 来 越 普及 ,人 们 逐渐 开始 将 机 器 学 习 和 人 类 的 表现 作 比较 。 机 器 学 习 算 法 
和 人 类 的 比较 也 成 为 越 来 越 多 机 器 学 习 学 者 研究 的 课题 。 这 是 因为 最 近 几 年 随 着 机 器 学 习 算 法 
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变 得 越 来 越 先进 , 特别 是 深度 学 习 的 兴起 , 机 器 学 习 在 面临 更 多 领域 问题 的 时 候 表现 出 很 高 的 
可 行 性 ,并且 可 以 和 人 类 相提并论 。 比 如 拿 图 像 识 别 来 说 ， 机 器 识别 一 个 物体 ， 给 我 们 的 感觉 
就 像 用 人 眼 识 别 一 样 , 几乎 所 有 人 类 能 辨识 出 来 的 东西 机 器 也 能 办 到 , 并 具有 和 人 类 不 相 上 下 
的 准确 率 。 同 时 ,在 建立 机 器 学 习 系 统 时 ， 通常 通过 高 度 机 动 性 的 工作 流 来 实现 ,这 比 人 类 手 
工 完成 要 高 效 得 多 。 

那么 , 机 器 学 习 和 人 类 在 做 同一 个 任务 时 到 底 谁 的 准确 率 更 高 呢 ? 事实 上 , 目前 机 器 学 习 
之 所 以 被 广泛 应 用 ， 正 是 因为 它 会 表现 得 比 人 类 更 加 优秀 。 理 论 和 实践 都 证 明 ， 机 器 学 习 的 准 
确 率 随 着 不 断 训 练 和 改进 会 逐渐 提升 直至 超过 人 类 水 平 , 但 一 旦 越过 人 类 水 平 , 提升 的 速度 将 
会 显著 放 缓 ， 直 到 达到 一 个 “瓶颈 ”。 这 一 “瓶颈 ” 叫 作 “ 贝 叶 斯 最 优 误差 (Bayes Error) ” , 
是 这 个 任务 准确 率 的 理论 最 优 值 , 无 论 用 任何 方式 都 无 法 超过 这 个 水 平 。 这 个 最 优 值 会 比 人 类 
水 平 稍 高 一 点 点 ， 但 通常 达 不 到 100%。 比 如 在 语音 识别 领域 ， 由 于 语音 中 客观 存在 一 定 比 率 
的 噪声 , 所 以 无 论 是 人 类 还 是 机 器 , 都 无 法 准确 地 听 出 这 部 分 内 容 是 什么 , 所 以 “最 优 准确 率 ” 
并 不 是 10096. 


5.6.3 ”改进 策略 
只 要 机 器 学 习 算法 准确 率 比 人 类 水 平 低 ， 我 们 就 可 以 用 以 下 策略 来 改进 。 


(1) 使 用 更 多 人 为 标注 的 标签 数据 。 
(2) 手动 进行 误差 分 析 。 
(3) 进行 效果 更 好 的 bias-variance 分 析 。 


关于 第 三 种 策略 ,我们 能 够 进行 更 好 的 bias-variance 分 析 ， 是 因为 我 们 能 够 通过 对 比 人 类 
误差 ,决定 改进 的 方向 一 一 降低 偏差 还 是 降低 方差 。 假设 在 一 个 识别 猫 的 任务 中 ， 人 类 的 误差 
率 是 0.5%， 我 们 把 这 个 误差 近似 看 成 “ 贝 叶 斯 最 优 误差 ”。 我 们 模型 的 训练 误差 是 6%， 而 
Dev Error 是 8%。 训练 误差 和 人 类 误差 之 间 还 有 一 定 距离 ， 说 明 我 们 应 将 重点 放 在 降低 误差 的 
策略 上 ， 比 如 使 用 更 高 级 的 神经 网 络 ， 或 者 训练 更 长 时 间 。 


人 类 误差 训练 误差 ”Dev Error 
0.5% 6% 896 


假设 另 有 一 个 难度 较 高 的 识别 任务 ， 比 如 识别 一 种 具体 的 稀有 猫 科 动物 ， 在 这 项 任务 中 ， 
人 类 的 误差 率 是 5.5%。 而 假定 我 们 模型 的 训练 误差 率 仍 为 6%，Dev Error 也 依然 为 8%。 训 练 
误差 与 人 类 误差 之 间 的 差距 仅 有 0.5%。 在 这 种 情况 下 ， 降 低 偏 差 的 提升 空间 很 小 ， 因 为 我 们 
很 难 把 误差 率 降 到 5.5% 以 下 。 反 而 训练 误差 和 Dev Error 之 间 2% 的 间隔 相对 比较 大 ， 此 时 我 
们 应 该 侧重 于 降低 方差 ,而 不 是 偏差 。 也 就 是 说 , 我们 应 该 尝试 更 多 的 防止 过 拟 合 的 方法 ， 比 
如 采用 正则 化 、 使 用 更 多 训练 数据 等 。 


人 类 误差 “训练 误差 Dev Error 
5.596 6% 8% 
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以 上 三 种 改进 方法 , 当 机 器 学 习 算 法 准确 率 超过 人 类 时 都 将 无 法 实现 。 所 以 从 人 类 水 平 到 
理论 最 优 值 ， 这 一 段 路 要 比 之 前 难 走 得 多 。 








机 器 学 习 的 实现 框架 


大 数据 、 算 法 和 并 行 计算 能 力 构成 了 人 工 智能 高 速 发 展 的 三 要 素 ,海量 的 数据 积累 是 基础 。 
开源 的 机 器 学 习 平台 能 够 让 开发 者 将 复杂 的 数据 传输 给 已 有 的 框架 进行 分 析 和 处 理 ,缩短 了 开 
发 时 间 ， 提 升 了 训练 效果 ， 极 大 地 推动 了 AI 技术 的 商业 化 进程 。 在 本 节 中 ， 我 们 将 介绍 两 个 
用 于 AI 开发 的 语言 、 框 架 和 库 。 


5.7.1 Python 

Python 是 数据 科学 家 最 常用 的 编程 语言 之 一 , 也 是 机 器 学 习 的 首选 工具 。 这 是 因为 Python 
内 置 了 很 多 实用 的 library， 很 方便 直接 拿 来 用 于 解决 机 器 学 习 的 实际 问题 ， 后 面 要 介绍 的 
scikit-learn 就 是 其 中 之 一 。 

不 熟悉 编程 的 朋友 们 可 能 对 library 的 概念 不 了 解 。 我 们 知道 ，Python 是 写 代码 的 工具 ， 
而 library 实际 上 就 是 预先 写 好 的 代码 , 可 以 直接 用 于 应 用 , 省 去 重复 编写 代码 的 过 程 。Library 
翻译 成 中 文通 常 叫 作 “ 包 ”， 调 用 library 被 称 为 “调包 ”。 在 Python 中 ， 数 据 科 学 家 常用 的 
library 如 表 5-6 所 示 。 





表 5-6 Python 中 常用 的 library 


主要 功能 


最 常见 的 包 ， 科 学 计算 的 利器 。 用 于 向 量 和 和 矩阵 | np.dot(x,y): 进行 x ^ y 的 矩阵 乘法 
的 存储 和 计算 np.max(x, axis=1): 返回 矩阵 每 行 的 最 大 值 


基于 Numpy 构建 的 具有 更 高 级 数据 结构 的 数据 | pd.read_csv('file name’): 读 取 CSV 格式 的 数 
分 析 包 ， 实 现 了 结构 化 表 数 据 的 基本 操作 据 源 
用 于 制作 图 表 的 基础 包 plt scatter(x.y): 制作 变量 x 和 y 的 散 点 图 


Seabom | 专业 用 于 统计 制图 , 适合 描绘 数据 集 特征 的 分 布 | sns.boxplot: 显示 一 组 数据 分 散 情况 资料 的 
和 关系 ， 基 于 Matplotlib 统计 图 








对 于 初次 接触 编程 或 者 Python 的 读者 ， 我 们 推荐 下 载 Anaconda. Anaconda 集成 了 Python 基 
本 环境 和 上 述 所 有 常见 包 ， 安 装 方便 ,非常 适合 初学 者 使 用 。 读 者 只 需 从 Anaconda 官网 上 免费 下 
载 其 最 新 版 本 ， 就 可 以 编写 Python 程序 。 本 书 中 所 有 实例 代码 都 可 以 在 Anaconda Python 中 实现 。 

在 Anaconda 上 , 我们 可 以 选择 Spyder 进行 代码 的 编写 。 Spyder 是 Python 的 一 款 IDE。 如 
同 其 他 编程 语言 一 样 , Python 在 编写 代码 时 需要 一 个 集成 开发 环境 , IDE 就 是 集成 开发 环境 的 
缩写 ， 它 给 用 户 提 供 了 编程 需要 的 图 形 化 界面 、 编 辑 器 、 编 译 器 、 调 试 器 等 。 打 开 Spyder, 
就 可 以 看 到 输入 代码 的 界面 。 
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5.7.2 scikit-learn 


编写 机 器 学 习 模型 不 容易 ,但 使 用 机 器 学 习 模 型 非常 简单 ,读者 只 需 套用 现 有 的 框架 即 可 。 
现 有 的 框架 可 以 是 某 种 编程 环境 中 的 程序 包 ， 或 者 一 款 成 熟 的 机 器 学 习 商业 软件 。scikit-leam 
是 一 个 针对 机 器 学 习 的 强大 Python 库 ， 主 要 用 于 构建 模型 ， 使 用 诸如 Numpy. SciPy 和 
Matplotlib 等 库 构 建 ， 如 图 5-9 所 示 ， 对 于 统计 建 模 技术 〈 如 分 类 、 回 归 、 集 群 等 ) 非常 有 效 。 
scikit-leam 的 特性 包括 监督 式 学 习 算法 、 非 监督 式 学 习 算 法 和 交叉 验证 ， 官 网 地 址 是 
http://scikit-learn.org/. scikit-learn 的 优点 是 可 以 使 用 许多 shell 算法 ， 提 供 高 效 的 数据 挖掘 ; 
缺点 是 不 是 最 好 的 模型 构建 库 ，GPU 使 用 不 高 效 。 





E 
















scikitlearn 
algorithm cheat-sheet 


classification 


dimensionality 
reduction 


图 5-9 scikit-learn 


Python 中 有 完备 的 机 器 学 习 库 skleam， 它 整合 了 现 有 的 众多 传统 的 机 器 学 习 模 型 ， 这 些 
模型 的 算法 已 经 在 程序 包 中 编写 好 , 用 户 无 须知 道 算法 的 原理 ， 也 无 须 懂得 模型 的 含义 ， 甚 至 
无 须 会 编程 ， 即 可 调用 程序 包 ， 执 行 并 得 到 我 们 需要 的 结果 。 整 个 过 程 不 过 只 是 几 行 代码 ， 就 
像 把 大 象 放 到 冰箱 一 样 ， 只 需 三 步 。 下 面 我 们 以 Python 为 例 ， 来 看 看 它 如 何 解决 机 器 学 习 经 
典 案例 一 一 titanic 沉船 生存 预测 ， 如 表 5-7 所 示 。 


表 5-7 titanic 沉船 生存 预测 
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21.075 


Pclass Age SibSp Parch Fare male Q S NoAge 





oOoco0----ocooc0co0o0o0-.-.- 


标签 数据 YY 


from sklearn.ensemble import RandomForestClassifier | 第 一 步 ， 读 取 程 序 包 
好 比 从 图 书馆 中 获得 需要 的 工具 材料 。 Se 


model = RandomForestClassifier(n_estimators=12) 第 二 步 : 声明 模型 


建立 了 一 个 模型 ， 叫 作 model， 这 个 model 要 用 随机 告诉 电脑 我 们 要 用 的 模型 是 什么 要 用 
哪 种 方法 解决 问题 
森林 模型 。 





model = model.fit(X, Y) 第 三 步 : 训练 模型 


aad : P A 给 声明 了 种 类 的 模型 “ 喂 ”数据 让 模 
经 过 这 一 步 ， 测 能 力 。 
经 过 这 一 步 ，model 记 住 了 数据 并 获得 了 预测 能 力 型 自主 学 习 数据 ,这 里 义 、Y 分 别 为 数 


据 的 特征 和 标签 





Y_hat = model.predict(X') 第 四 步 : 模型 预测 
让 model 对 未 知 标签 数据 进行 预测 。 


让 训练 好 的 模型 去 “完成 任务 ”, 即 预 
测 新 数据 的 标签 
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对 于 不 熟悉 模型 的 人 ,只 需 记 住 这 几 行 代码 ， 就 可 以 完整 地 跑 出 这 个 模型 。 代 码 中 并 没有 
多 少 需 要 理解 的 部 分 或 者 需要 预先 掌握 的 知识 , 基本 都 是 skleam 的 预 设 格式 。 实 际 上 , skleam 
可 以 用 于 绝 大 多 数 传统 机 器 学 习 模 型 ， 并 且 只 需 在 这 几 行 代 码 上 稍 作 改 动 。 


5.7.3 Spark MLlib 


Apache 的 Spark MLlib 是 一 个 具有 高 度 拓展 性 的 机 器 学 习 库 ， 在 Java. Scala. Python. 其 
至 R 语言 中 都 非常 有 用 ， 因 为 它 使 用 Python 和 R 中 类 似 NumPy 这 样 的 库 ， 能 够 进行 高 效 
的 交互 。MLlib 可 以 很 容易 地 插入 Hadoop 工作 流程 中 。 它 提供 了 机 器 学 习 算法 ， 如 分 类 、 
回归 、 聚 类 等 。 这 个 强大 的 库 在 处 理 大 规模 的 数据 时 ， 速 度 非常 快 。Spark MLlib 的 官网 地 址 
是 https://spark.apache.org/mllib/。 

Spark MLlib 的 优点 是 ， 对 于 大 规模 数据 处 理 来 说 ， 非 常 快 ， 可 用 于 多 种 语言 ， 缺 点 是 ， 
陡峭 的 学 习 曲 线 ， 仅 Hadoop 支持 即 插 即 用 。 
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第 4 章 
机 器 学 习 算 法 


机 器 学 习 一 直 以 来 都 是 人 工 智能 研究 的 核心 领域 。 它 主要 通过 各 种 


算法 使 得 机 器 能 够 从 样本 、 


数据 和 经 验 中 学 习 规律 ， 从 而 对 新 的 样本 做 出 识别 或 对 未 来 做 出 预测 。20 世纪 80 年 代 开 始 的 机 器 


学 习 浪 潮 诞生 了 包括 决策 树 学 习 、 推 导 罗 辑 规划 、 聚 类 、 强 化 学 习 和 贝 中 
习 算法 , 它们 已 经 被 广泛 地 应 用 在 网 络 搜索 、 垃 圾 邮件 过 滤 、 推 荐 系统 、 


| 斯 网 络 等 非常 多 的 机 器 学 
网 页 搜索 排序 、 广 告 投放 、 





信用 评价 、 欺诈 检测 等 领域 。 而 这 几 年 来 取得 突破 性 进展 而 受到 人 们 关注 的 深度 学 习 ， 只 是 实现 机 
器 学 习 的 其 中 一 种 技术 手段 。 图 6-1 展示 了 产品 、 数 据 和 算法 的 协同 效应 。 





数据 
将 产品 数据 反馈 到 训练 模型 
训练 数据 集中 
[Lj ON 
算法 应 用 到 产品 * 
产品 算法 


图 6-1 产品 、 数 据 、 算 法 的 协同 效应 


算法 概述 


最 常见 的 机 器 学 习 就 是 学 习 y=f(x) 的 映射 ， 针 对 新 的 x 预测 Y， 这 叫 作 预测 建 模 或 预测 分 
析 。 我 们 的 目标 就 是 让 预测 更 加 精确 。 我 们 不 知道 目标 函数 £ 是 什么 样 的 。 如 果 知 道 ， 就 可 
以 直接 使 用 它 , 而 不 需要 再 通过 机 器 学 习 算 法 从 数据 中 进行 学 习 。 机 器 学 习 算 法 可 以 描述 为 学 
习 一 个 目标 函数 f， 它 能 够 最 好 地 映射 出 输入 变量 x 到 输出 变量 y。 预 测 建 模 的 首要 目标 是 减 
小 模型 误差 或 将 预测 精度 做 到 最 佳 。 我 们 从 统计 等 不 同 领域 借鉴 了 多 种 算法 来 达到 这 个 目标 。 














当面 对 各 种 机 器 学 习 算法 时 ， 一 个 新 手 最 常 问 的 问题 是 “我 该 使 
个 问题 需要 考虑 很 多 因素 : CD 数据 的 大 小 、 质 量 和 类 型 ，(2) 完成 





用 哪个 算法 ”。 要 回答 这 
计算 所 需要 的 时 间 ; (3) 











任务 的 紧迫 程度 (4) 你 需要 对 数据 做 什么 处 理 。 在 尝试 不 同 算法 之 前 ， 即 使 是 一 个 经 验 丰 
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富 的 数据 科学 家 ， 也 不 可 能 告诉 你 哪 种 算法 性 能 最 好 。 本 节 列 举 的 是 最 常用 的 几 种 。 如 果 你 是 
一 个 机 器 学 习 的 新 手 ， 这 几 种 是 最 好 的 学 习 起 点 。 





6.1.1. 线性 回归 


线性 回归 可 能 是 统计 和 机 器 学 习 领域 最 广 EA 
为 人 知 的 算法 之 一 。 通 过 线性 回归 找到 一 组 特定 
的 权 值 ， 称 为 系数 B。 通 过 最 能 符合 输入 变量 x 
到 输出 变量 y 关系 的 等 式 所 代表 的 线 表达 出 
来 。 线 性 回归 的 例子 如 图 6-2 所 示 。 

例如 ，y=bo + by * x。 我 们 针对 输入 的 x 来 62 线性 回归 的 例子 
预测 yo 线性 回归 学 习 算法 的 目标 是 找到 bo 和 了 
的 值 。 不 同 的 技巧 可 以 用 于 线性 回归 模型 ， 比 如 线性 代数 的 普通 最 小 二 乘法 以 及 梯度 下 降 优化 
算法 。 线 性 回归 已 经 有 超过 200 年 的 历史 ， 已 经 被 广泛 地 研究 。 根 据 经 验 ， 这 种 算法 可 以 很 
好 地 消除 相似 的 数据 ， 以 及 去 除数 据 中 的 噪声 ， 是 快速 且 简便 的 首选 算法 。 


6.1.2 ”逻辑 回归 


逻辑 回归 是 另 一 种 从 统计 领域 借鉴 而 来 的 机 器 学 习 算 法 。 与 线性 回归 相同 , 逻辑 回归 的 目 
的 是 找 出 每 个 输入 变量 对 应 的 参数 值 。 不 同 的 是 ， 预 测 输出 所 用 的 变换 是 一 个 被 称 作 logistic 
函数 的 非 线性 函数 。logistic 函数 像 一 个 大 S， 它 将 所 有 值 转换 为 0 到 1 之 间 的 数 ， 如 图 6-3 所 
示 。 这 很 有 用 , 我 们 可 以 根据 一 些 规则 将 logistic 函数 的 输出 转换 为 0 或 1( 比 如 , 当 小 于 0.5 
时 则 为 1) ， 然 后 以 此 进行 分 类 。 


^ 





Logistic Regression Example 


* Boundary 
+ False samples 


* True samples 
e 





图 6-3 逻辑 回归 的 例子 
正 是 因为 模型 学 习 的 这 种 方式 , 逻辑 回归 做 出 的 预测 可 以 被 当 作 输入 为 0 和 1 两 个 分 类 数 
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据 的 概率 值 。 这 在 一 些 需 要 给 出 预测 合理 性 的 问题 中 非常 有 用 。 就 像 线性 回归 , 在 需要 移 除 与 
输出 变量 无 关 的 特征 以 及 相似 特征 方面 , 逻辑 回归 可 以 表现 得 很 好 。 在 处 理 二 分 类 问题 上 , 这 
是 一 个 快速 高 效 的 模型 。 


6.1.3 ”线性 判别 分 析 


逻辑 回归 是 一 个 处 理 二 分 类 问题 的 传统 分 类 算法 。 如 果 需 要 进行 更 多 的 分 类 , 线性 判别 分 
析 算 法 (Linear Discriminant Analysis, LDA) 是 一 个 更 好 的 线性 分 类 方法 。 线 性 判别 分 析 的 例 
子 如 图 6-4 所 示 。 对 LDA 的 解释 非常 直接 ， 它 包括 针对 每 一 个 类 的 输入 数据 的 统计 特性 。 对 
于 单一 输入 变量 来 说 ， 包 括 : 


@ 类 内 样本 均值 。 
@ 总 休 样 本 变量 。 














Same Gate ` 
Unstin_concatfrs Dowesample Gate 254 
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Sample 
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6-4 ”线性 判别 分 析 的 例子 


通过 计算 每 个 类 的 判别 值 ， 并 根据 最 大 值 来 进行 预测 。 这 种 方法 假设 数据 服从 高 斯 分 布 〈 钟 
形 曲线 )， 所 以 可 以 较 好 地 提前 去 除 离 群 值 。 这 是 针对 分 类 模型 预测 问题 的 一 种 简单 有 效 的 方法 。 
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决策 树 是 机 器 学 习 预 测 建 模 的 一 类 重要 算法 , 可 以 用 二 又 树 来 解释 决策 树 模型 。 这 是 根据 
算法 和 数据 结构 建立 的 二 又 树 ,并 不 难 理解 ,每 个 节点 代表 一 个 输入 变量 以 及 变量 的 分 又 点 ( 假 
设 是 数值 变量 ) 。 如 图 6-5 所 示 是 决策 树 的 例子 。 





6-5 决策 树 的 例子 


树 的 叶 节点 包括 用 于 预测 的 输出 变量 y. 通过 树 的 各 分 支 到 达 叶 节点 , 并 输出 对 应 叶 节点 
的 分 类 值 。 树 可 以 进行 快速 的 学 习 和 预测 。 通 常 并 不 需要 对 数据 做 特殊 的 处 理 ， 就 可 以 使 用 这 
个 方法 对 多 种 问题 得 到 准确 的 结果 。 


6.1.5 “朴素 贝 叶 斯 


朴素 贝 叶 斯 (Naive Bayes) 是 一 个 简单 但 异常 强大 的 预测 建 模 算 法 。 这 个 模型 包括 两 种 
概率 ， 它 们 可 以 通过 训练 数据 直接 计算 得 到 : (OD 每 个 类 的 概率 ; OD 给 定 x 值 的 情况 下 ， 
每 个 类 的 条 件 概率 。 根 据 贝 叶 斯 定理 〈 见 图 6-6) ， 一 旦 完成 计算 ， 就 可 以 使 用 概率 模型 针对 
新 的 数据 进行 预测 。 当 你 的 数据 为 实数 时 ， 通常 假设 服从 高 斯 分 布 ( 钟 形 曲 线 ) ， 这 样 可 以 很 
容易 地 预测 这 些 概率 。 


eh 


Samples (x i, y i] with y_i=y Samples (x | y. i) with x_i=x | 


图 6-6 贝 叶 斯 定理 
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之 所 以 被 称 作 朴素 贝 叶 斯 ， 是 因为 我 们 假设 每 个 输入 变量 都 是 独立 的 。 这 是 一 个 强 假设 ， 
在 真实 数据 中 几乎 是 不 可 能 的 。 但 对 于 很 多 复杂 问题 ， 这 种 方法 非常 有 效 。 


6.46 K 最 近邻 算法 


K 最 近邻 算法 (KNN) 是 一 个 非常 简单 有 效 的 算法 。KNN 的 模型 表示 整个 训练 数据 集 。 
对 于 新 数据 点 的 预测 是 : 寻找 整个 训练 集中 K 个 最 相似 的 样本 (邻居 ) ， 并 对 这 些 样本 的 输 
出 变量 进行 总 结 。 对 于 回归 问题 ， 可 能 意味 着 平均 输出 变量 。 对 于 分 类 问题 ， 则 可 能 意味 着 类 
值 的 众 数 〈 最 常 出 现 的 那个 值 ) 。 诀 窍 是 如 何在 数据 样本 中 找 出 相似 性 。 最 简单 的 方法 是 ， 如 
果 你 的 特征 都 是 以 相同 的 尺度 (比如 都 是 英寸 ) 度量 的 , 就 可 以 直接 计算 它们 互相 之 间 的 欧式 
距离 。 如 图 6-7 所 示 为 K 最 近邻 算法 的 例子 。 






Vote by the 3nearest | @ 
neigbors 


6-7 及 最 近邻 算法 的 例子 


KNN 需要 大 量 空间 来 存储 所 有 的 数据 ,但 只 是 在 需要 进行 预测 的 时 候 才 开始 计算 (学 习 )。 
你 可 以 随时 更 新 并 组 织 训练 样本 以 保证 预测 的 准确 性 。 在 维 数 很 高 (很 多 输入 变量 ) 的 情况 下 ， 
这 种 通过 距离 或 相近 程度 进行 判断 的 方法 可 能 失败 。 这 会 对 算法 的 性 能 产生 负面 的 影响 , 被 称 
作 维 度 灾难 。 建 议 只 有 当 输 入 变量 与 输出 预测 变量 最 具有 关联 性 的 时 候 使 用 这 种 算法 。 


617 FIRES 


K 最 近邻 算法 的 缺点 是 需要 存储 所 有 训练 数据 集 。 而 学 习 矢量 量化 (VQ) 是 一 个 人 工 
神经 网 络 算法 , 允许 选择 需要 保留 的 训练 样本 个 数 , 并 且 学 习 这 些 样 本 看 起 来 应 该 具有 何 种 模 
式 。 如 图 6-8 所 示 为 学 习 矢 量 量化 的 例子 。 
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INPUT LAYER COMPETITIVE LAYER LINEAR LAYER 





图 6-8 ”学习 矢量 量化 的 例子 


LVQ 可 以 表示 为 一 组 码 本 向 量 的 集合 。 在 开始 的 时 候 进 行 随机 选择 ， 通 过 多 轮 学 习 算法 
的 迭代 ， 最 后 得 到 与 训练 数据 集 最 相配 的 结果 。 通 过 学 习 ， 码 本 向 量 可 以 像 K 最 近邻 算法 那 
样 进行 预测 。 通 过 计算 新 数据 样本 与 码 本 向 量 之 间 的 距离 找到 最 相似 的 邻居 (最 符合 码 本 向 
量 )。 将 最 佳 的 分 类 值 (或 回归 问题 中 的 实数 值 ) 返回 作为 预测 值 。 如 果 你 将 数据 调整 到 相同 
的 尺度 , 比如 0 和 1, 则 可 以 得 到 最 好 的 结果 。 如 果 你 发 现 对 于 数据 集 , KNN 有 较 好 的 效果 ， 
可 以 尝试 一 下 LVQ 来 减少 存储 整个 数据 集 对 存储 空间 的 依赖 。 


6.18 支持 向 量 机 


支持 向 量 机 (SVM) 可 能 是 最 常用 并 且 最 常 被 谈 到 的 机 器 学 习 算 法 。 超 平面 是 一 条 划分 
输入 变量 空间 的 线 。 在 SVM 中 ， 选 择 一 个 超 平面 ， 它 能 最 好 地 将 输入 变量 空间 划分 为 不 同 的 
类 ， 要 么 是 0， 要 么 是 1。 在 二 维 情况 下 ， 可 以 将 它 看 作 一 根 线 ， 并 假设 所 有 输入 点 都 被 这 根 
线 完全 分 开 。SVM 通过 学 习 算法 找到 最 能 完成 类 划分 的 超 平面 的 一 组 参数 。 如 图 6-9 所 示 为 
支持 向 量 机 的 例子 。 


^ 

















xt 


69 支持 向 量 机 的 例子 
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超 平面 和 最 接近 的 数据 点 的 距离 看 作 一 个 差 值 ,最 好 的 超 平面 可 以 把 所 有 数据 划分 为 两 个 
K, 并 且 这 个 差 值 最 大 。 只 有 这 些 点 与 超 平面 的 定义 和 分 类 器 的 构造 有 关 。 这 些 点 被 称 作 支 持 
向 量 , 是 它们 定义 了 超 平面 。 在 实际 使 用 中 , 优化 算法 被 用 于 找到 一 组 参数 值 使 差 值 达 到 最 大 。 
SVM 可 能 是 一 种 最 为 强大 的 分 类 器 。 


6.1.9 Bagging 和 随机 森林 


随机 森林 是 一 个 常用 并 且 最 为 强大 的 机 器 学 习 算 法 。 它 是 一 种 集成 机 器 学 习 算 法 , 称 作 自 
举 汇聚 或 Bagging. Bootstrap 是 一 种 强大 的 统计 方法 ， 用 于 数据 样本 的 估算 ， 比 如 均值 。 从 
数据 中 采集 很 多 样本 ， 计 算 均 值 ， 然 后 将 所 有 均值 再 求 平 均 ， 最 终 得 到 一 个 真实 均值 的 较 好 的 
估计 值 。 在 Bagging 中 用 了 相似 的 方法 。 但 是 通常 用 决策 树 来 代替 对 整个 统计 模型 的 估计 。 从 
训练 集中 采集 多 个 样本 ， 针 对 每 个 样本 构造 模型 。 当 你 需要 对 新 的 数据 进行 预测 时 ， 每 个 模型 
做 一 次 预测 ， 然 后 对 预测 值 进行 平均 ， 得 到 真实 输出 的 较 好 的 预测 值 。 如 图 6-10 所 示 为 随机 
森林 的 例子 。 





The ensemble model 


T > 
Forest output probability p(clv) = ZE plev) x il 
t 


6-10 ”随机 森林 的 例子 


这 里 的 不 同 在 于 在 什么 地 方 创建 树 , 与 决策 树 选 择 最 优 分 又 点 不 同 , 随机 森林 通过 加 入 随 
机 性 从 而 产生 次 优 的 分 又 点 。 每 个 数据 样本 所 创建 的 模型 与 其 他 的 都 不 相同 , 但 在 唯一 性 和 不 
同性 方面 仍然 准确 。 结 合 这 些 预测 结果 可 以 更 好 地 得 到 真实 的 输出 估计 值 。 如 果 在 高 方差 的 算 
法 〈 比 如 决策 树 ) 中 得 到 较 好 的 结果 ， 通 常 也 可 以 通过 Bagging 这 种 算法 得 到 更 好 的 结果 。 




















6.1.10 Boosting 和 AdaBoost 


Boosting 是 一 种 集成 方法 ， 通 过 多 种 弱 分 类 器 创建 一 种 强 分 类 器 。 它 首先 通过 训练 数据 
建立 一 个 模型 ,然后 建立 第 二 个 模型 来 修正 前 一 个 模型 的 误差 。 在 完成 对 训练 集 完美 预测 之 前 ， 
模型 和 模型 的 最 大 数量 都 会 不 断 添加 。 
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AdaBoost 是 第 一 种 成 功 地 针对 二 分 类 的 Boosting 算法 ， 是 理解 Boosting 最 好 的 起 点 。 现 
代 的 Boosting 方法 是 建立 在 AdaBoost 之 上 的 ， 多 数 都 是 随机 梯度 Boosting 机 器 。 如 图 6-11 
所 示 是 AdaBoost 的 例子 。 


Algorithm Adaboost - Example 


Original data set, D, Update weights, D. 





courtesy to Alexander er http //ski ics uci edu/Classes/2012F-27372ction 


6-11 AdaBoost 的 例子 


AdaBoost 与 短 决策 树 一 起 使 用 。 当 第 一 棵 树 创建 之 后 ， 每 个 训练 样本 的 树 的 性 能 将 用 于 
决定 针对 这 个 训练 样本 下 一 棵 树 将 给 予 多 少 关注 。 难 于 预测 的 训练 数据 给 予 较 大 的 权 值 , 反之 
容易 预测 的 样本 给 予 较 小 的 权 值 。 模 型 按 顺 序 建立 , 每 个 训练 样本 权 值 的 更 新 都 会 影响 下 一 棵 
树 的 学 习 效 果 。 完 成 决策 树 的 建立 之 后 ,进行 对 新 数据 的 预测 ， 训 练 数据 的 精确 性 决定 了 每 棵 
树 的 性 能 。 因 为 重点 关注 修正 算法 的 错误 ， 所 以 移 除数 据 中 的 离 群 值 非常 重要 。 





= 10-ensembles pdf 


6.2 支持 向 量 机 算法 


本 节 我 们 以 著名 的 SVM 算法 切入 , 来 感受 一 下 一 个 成 熟 完备 的 机 器 学 习 算 法 是 怎么 运作 
的 。 SVM 是 机 器 学 习 最 经 典 也 是 最 实用 的 模型 之 一 。 这 个 算法 从 字面 上 不 易 理解 ,但 没关系 ， 
学 习 新 的 算法 时 , 我 们 最 重要 的 是 先 理解 这 个 算法 的 思想 是 什么 。 SVM 的 思想 是 找到 一 个 “分 
割 器 ”， 将 两 种 类 别 的 样本 点 “ 切 开 ”。 

我 们 的 核心 目标 是 找到 一 条 直线 去 分 割 平面 上 的 两 种 点 。 这 里 首先 介绍 线性 可 分 这 个 概 
念 。 像 图 6-12 这 样 ， 可 以 用 一 条 直线 将 两 种 类 别 的 点 分 开 的 情形 称 为 线性 可 分 。 而 像 图 6-13 
这 样 的 情形 则 为 线性 不 可 分 。 

我 们 先 来 看 线性 可 分 的 情况 。 对 于 二 维 空间 (平面 ) 中 线性 可 分 的 情形 ， 我 们 只 需 找到 一 
条 直线 ， 使 得 正 值 样本 落 在 直线 的 一 侧 ， 负 值 样本 落 在 直线 的 另 一 侧 。 对 于 线性 可 分 的 样本 集 
来 说 ， 这 样 的 直线 是 存在 的 ， 而 且 是 不 唯一 的 。 比 如 图 6-14 中 y=-x+2 和 y=-x+2.1 都 是 
满足 条 件 的 直线 。 
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x f x 
xl, /4 Ax //4 
x|x/ óa X |x//4a 
A> 
^ ^ 
x | 4, x | ^ 
图 6-12 SVM 的 例子 一 图 6-13 SVM 的 例子 二 图 6-14 SVM 例子 三 


推广 到 高 维 空间 中 ， 这 条 分 割 的 “直线 ”不 再 是 直线 ， 而 叫 作 超 平面 Chyperplane) 。 在 
三 维 空间 中 , 超 平面 是 二 维 的 平面 。 在 更 高 维 空间 中 , 超 平面 会 更 加 抽象 。 为 了 方便 描述 这 个 
超 平面 ， 我 们 需要 知道 如 何 用 数学 形式 指 代 它 ， 就 像 用 y= -x+2 表示 图 6-12 的 直线 一 样 。 

首先 , 我 们 要 知道 , 在 m 维 空间 中 , 一 个 点 的 坐标 需要 n 个 数值 来 表示 , BD GL, x2, .…, xm) o 
我 们 可 以 把 它 简 写 为 向 量 x， 那 么 在 n 维 空间 中 ， 超 平面 就 可 以 用 以 下 形式 来 表示 : 


w*xtb-0 


其 中 , w 和 b 是 参数 , 就 如 同 直线 y=ax+b 中 的 a 和 b 一 样 , 只 不 过 这 里 的 w 是 nm 维 向 量 ， 
b 为 实数 。w。x+b>0 和 w。x+b<0 分 别 对 应 超 平面 两 侧 的 空间 。 对 于 一 个 未 知 标签 的 样 
本 点 x， 我 们 只 需 看 wx + b 的 正 负 ， 即 可 判别 它 是 正 值 样本 还 是 负 值 样本 。 这 种 分 类 模型 叫 
作 感 知 机 (perceptron) 。 

让 我 们 回 到 二 维 平面 的 例子 。 可 以 将 图 中 两 种 点 完全 隔离 的 直线 有 无 数 条 , 那么 其 中 是 否 
存在 一 条 最 优 的 直线 呢 ? 

在 图 6-15 中 ， 直 线 a 和 b 都 能 分 离 两 种 点 ， 但 当 更 多 的 点 进来 后 ， 直 线 a 将 其 中 1 个 点 
错误 地 归 类 了 ， 这 是 因为 我 们 这 条 线 画 的 “不 够 好 ”， 离 样本 点 太 近 ， 导 致 对 新 来 的 点 划分 不 
够 精确 。 直 线 b 做 得 更 好 ， 是 因为 它 离 两 边 的 点 都 比较 远 ， 因 此 更 容易 将 新 来 的 点 划分 正确 。 
于 是 我 们 想到 ， 最 “中 间 ” 的 直线 是 最 合适 的 。 也 就 是 说 ,我 们 应 该 找到 离 两 侧 样本 点 簇 都 尽 
可 能 远 的 直线 。 用 专业 术语 来 表示 的 话 ， 就 是 让 这 个 分 类 器 的 margin 最 大 。 




















^ b 4 b 

x x 

x» Xx 
x 4 ^ x ^^^ 
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Xx AAS ^ XxT AAA 
xx ^4 * AAA 
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图 6-15 SVM 的 例子 四 


以 上 讨论 的 都 是 线性 可 分 的 情形 。 对 于 线性 不 可 分 的 情况 ，SVM 的 解决 方案 是 通过 核 函 
数 进行 空间 变换 , 将 低位 空间 投射 到 高 位 空间 中 去 , 使 经 过 变换 后 的 样本 点 实现 线性 可 分 。 说 
起 来 可 能 有 些 玄 幻 ， 但 这 确实 是 可 行 的 。 
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如 图 6-16 所 示 的 平面 中 的 点 显然 无 法 用 直线 分 开 。 即 使 引入 松弛 因子 也 不 行 ， 因 为 这 本 
质 上 就 不 是 线性 可 分 的 问题 。 但 设想 我 们 会 使 用 某 种 “魔法 ”， 能 让 这 些 点 漂浮 到 空间 中 去 ， 
并 且 外 围 的 点 飘 得 更 高 ， 内 图 的 点 飘 得 略 低 ， 就 像 图 6-17 一 样 。 这 样 我 们 就 可 以 用 一 张 纸 将 
这 个 漂浮 的 空间 切断 ， 实 现 两 种 点 的 分 离 。 将 这 张 纸 还 原 到 原平 面 中 去 是 一 条 曲线 。 








图 6-16 SVM 例子 图 6-17 SVM 例子 
这 个 映射 对 应 的 规则 是 : 
X= x 
Sy: 


Z = sqrt(x^2 + y^2) 


在 实际 应 用 中 , 上 述 的 空间 变换 是 通过 核 变换 实现 的 。 核 变换 的 表达 形式 与 上 面 的 公式 不 
太 相同 。 虽 然 SVM 从 本 质 上 来 说 一 种 线性 分 类 器 ， 但 Kernel SVM 将 核 变 换 与 线性 分 类 器 结 
合 ， 使 得 SVM 可 以 解决 非 线性 问题 。 可 以 处 理 非 线性 边界 问题 是 SVM 最 大 的 优势 之 一 。 


6.3 wma 


Logistic Regression (逻辑 回归 ) 是 一 种 常见 的 分 类 模型 。 我 们 不 要 被 名 字 所 惑 ， 逻辑 回归 
是 一 个 分 类 模型 ， 也 就 是 说 ， 要 使 用 这 个 模型 ， 标 签 数据 必须 是 离散 型 变量 。 最 简单 的 离散 型 
变量 是 二 元 离散 型 变量 (binary variable) ， 即 变量 只 取 两 个 值 : 0 或 者 1。 轴 辑 回归 之 所 以 带 
有 “回归 ”二 字 ， 是 因为 它 以 线性 回归 为 基础 演化 而 来 ， 与 线性 回归 的 表达 形式 相似 。 

让 我 们 先 回顾 一 下 线性 回归 。 线性 回归 用 来 刻画 连续 型 变量 y 与 若干 变量 xl.x2,…. 之 间 的 
线性 关系 ， 其 基本 形式 为 : 




















y=a0+alxl +a2x2+...+amxm (D 
逻辑 回归 在 上 面 公式 的 基础 上 对 右 侧 施 加 一 个 叫 作 sigmoid 的 函数 : 
y=f(a0 + alxl + a2x2 + ... + amxm) £23 


(z) = (lte”) 的 图 像 如 图 6-18 所 示 。 
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图 6-18 逻辑 回归 


线性 回归 之 所 以 不 适合 解决 分 类 问题 , 是 因为 因 变 量 y 的 取 值 范围 是 全 体 实数 , 而 我 们 需 
要 的 因 变 量 是 介 于 0 和 1 之 间 的 数 。sigmoid 函数 的 引入 刚好 解决 了 这 个 问题 , 从 %(z) 的 表达 
式 可 以 看 出 ， 9%(z) 这 个 函数 将 全 体 实数 集 映射 到 (0，1) 这 个 区 间 。 这 样 因 变量 y 就 被 定 在 
了 (0.1) 这 个 区 间 。 虽 然 和 我 们 想 要 的 两 点 分 布 形式 有 差别 , 但 (0,1) 区 间 让 我 们 想到 什么 ? 
概率 。 

因 变量 y 在 这 里 表示 样本 属于 类 别 1 的 概率 。y 越 接近 1， 这 一 条 样本 属于 类 别 1 的 可 能 
性 越 高 ，y 越 接 近 0， 则 它 属于 类 别 0 的 可 能 性 越 高 。 因 此 ， 我 们 可 以 设 定 一 个 临界 值 ， 比 如 
0.5， 对 于 每 一 个 x， 在 计算 得 到 的 y 值 大 于 0.5 时 ， 归 为 类 别 1， 在 y 值 小 于 等 于 0.5 时 ， 归 
为 类 别 0。 

逻辑 回归 还 有 另 一 种 书写 形式 , 该 形式 保留 线性 回归 模型 中 等 号 右边 的 形式 , 并 在 左边 对 
y 加 一 个 连接 函数 : 


logit(y) = a0 + alx1 + a2x2 +... + amxm 


这 里 logit(y) -log( y/(1-y))。 通 过 数学 推导 ， 可 以 证 明 两 种 形式 是 等 价 的 。 

这 个 模型 具体 是 怎么 运作 的 呢 ? 同 线性 回归 一 样 ， 上 述 公式 描述 了 y 与 x 之 间 的 客观 关 
Rox 是 自 变量 , 而 y 是 因 变量 。 逻辑 模型 告诉 我 们 y 与 x 之 间 存 在 这 样 一 种 形式 的 约束 关系 ， 
但 模型 中 的 参数 未 知 ， 需 要 我 们 去 估计 。 该 模型 中 的 参数 与 线性 回归 的 参数 相同 ， 即 
a0,a1,…,am。 这 个 模型 参数 一 般 用 极 大 似 然 估计 来 求解 。 

在 进行 预测 时 ， 我 们 可 以 使 用 (2) 3X. 计算 好 参数 之 后 ,我 们 就 可 以 按照 (2) 式 的 法 则 
由 给 定 的 x 计算 出 y。 若 y 宇 0.5， 则 分 类 为 1， 若 y<0.5, 则 分 类 为 0。 这 样 我 们 的 分 类 任务 就 
完成 了 。 
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本 节 我 们 来 看 KNN 算法 。KNN 算法 通常 用 来 做 分 类 问题 。 这 个 算法 的 思想 是 用 临近 样 
本 的 标签 值 来 估计 待 分 类 样本 的 标签 值 。 具 体 来 说 , 就 是 选取 离 待 分 类 样本 距离 最 近 的 个 样 
本 点 ， 如 果 这 个 样本 点 大 多 数 属于 某 一 类 别 ， 那 么 该 样本 属于 这 个 类 别 。 

如 图 6-19 所 示 ， 在 平面 中 有 两 种 标签 的 点 一 一 红色 三 角 和 蓝 色 方 框 。 绿 色 圆圈 标记 (上 
面 有 问号 标记 ) 的 点 为 待 分 类 的 点 。 首先 我 们 需要 预 设 k 的 值 。k 是 我 们 想 考察 周围 点 的 个 数 ， 
假设 k=3。 离 绿色 圆圈 最 近 的 三 个 点 有 两 个 为 红色 三 角 ， 一 个 是 蓝 色 方 框 。 根 据 少数 服从 多 数 
原则 ， 将 待 分 类 的 点 标记 为 红色 三 角 。 





6-19 KNN 算法 


事实 上 , 这 样 一 来 我 们 就 完成 了 分 类 任务 。 是 不 是 很 简单 ? 相 比 前 几 个 小 节 介绍 的 分 类 算 
法 ，KNN 算法 执行 起 来 非常 简单 ， 易 于 理解 。 而 且 值 得 注意 的 是 ，KNN 算法 中 没有 参数 需要 
估计 ， 这 和 我 们 之 前 介绍 的 算法 有 根本 的 不 同 ， 没 有 参数 也 就 无 须 进 行 训练 。 KNN 算法 的 全 
部 过 程 都 在 预测 阶段 。KNN 算法 依然 属于 监督 式 学 习 ， 需 要 我 们 告知 样本 集 数 据 的 标签 ， 但 
不 要 通过 训练 进行 学 习 ， 这 表示 它 在 机 器 学 习 算法 中 有 一 定 的 特殊 性 。 


6.4.1 超 参 数 k 


KNN 算法 虽然 没有 参数 ， 但 是 存在 超 参数 ， 那 就 是 k。 需 要 注意 的 是 ， 当 我 们 改变 k 的 
值 时 ， 目 标 值 可 能 会 发 生 改 变 。 回 到 上 面 的 例子 ， 如 果 我 们 选择 k=5 (图 中 虚线 圆圈 ) ， 那 么 
图 5-18 中 这 个 待 分 类 的 点 将 被 划分 为 蓝 色 , 这 是 因为 它 周围 最 近 的 5 个 点 红 蓝 比例 为 2:3。 可 
见 ，KNN 的 分 类 结果 非常 依赖 预 设 值 k。k 是 KNN 算法 中 唯一 的 超 参数 。 如 何 选取 k 的 值 ， 
是 KNN 算法 中 的 一 门 学 问 。 

另外 要 提 到 的 是 ， 关于 “距离 ”的 概念 。 距离 最 近 要 怎么 定义 ? 在 上 面 这 个 例子 中 ， 我们 
使 用 的 是 平面 中 两 点 的 几何 距离 。 这 个 几何 距离 通常 被 称 为 “ 欧 几 里 得 距离 (Euclidean 
Distance) ”， 这 个 概念 可 以 被 推广 到 高 维 空间 中 。 所 谓 “ 欧 几 里 得 距离 ”， 就 是 将 两 个 点 各 
个 分 量 相 减 的 平方 和 开 根 号 ， 即 : 
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n 


d= Yeu a)? 
kzi 
除了 欧 几 里 得 距离 之 外 ，KNN FABIA A EREA SAUE (Manhattan Distance) 和 
切 比 雪夫 距离 (Chebyshev Distance) 。 这 三 种 距离 统称 为 闵可夫 斯 基 距 离 ， 可 用 下 面 这 个 通 
式 来 表示 : 





n 1/p 
di— (> xu — xzi r) 
ici 
4 p=l 时 为 曼哈顿 距离 。 


当 -2 时 为 欧 几 里 得 距离。 
4 poo CELI) 时 为 切 比 雪夫 距离 
n i z 
Jim (Cr -»r) max xi — yıl 


1. 基于 距离 倒数 的 权重 KNN 


KNN 算法 的 一 个 可 以 改进 的 地 方 是 将 “临近 点 取 平 均值 ” 改 为 “临近 点 按 距 离 权重 取 平 
均值 ”。 对 离 测试 点 更 近 的 点 赋予 更 高 的 权重 ， 离 测试 点 较 远 的 点 赋予 较 低 的 权重 。 比 如 k= 
5 时 ， 如 果 做 回归 ， 预 测 结果 由 最 近 的 5 个 点 分 别 乘 1/5 相 加 得 到 ， 如 图 6-20 所 示 。 在 使 用 距 
离 权重 系数 后 ， 预 测 结果 改 为 由 最 近 5 个 点 分 别 乘 以 w1、w2、w3、w4、w5 得 到 ， 其 中 wi 
和 测试 点 到 邻近 样本 点 i 的 距离 di 成 反比 。 








KNeighborsRegressor (k = 5, weights = 'uniform') 









— prediction 
e date 





图 6-20 ”距离 权重 

2. KNN 的 参数 调节 

虽然 KNN 没有 训练 的 过 程 ， 但 KNN 也 会 出 现 过 拟 合 现象 。 回 顾 一 下 过 拟 合 的 定义 ， 过 
拟 合 指 的 是 训练 集 和 测试 集 表现 相差 较 大 的 现象 。 KNN 模型 如 果 使 用 不 当 ， 这 种 情况 也 是 会 
发 生 的 。 发 生 过 拟 合 时 ,训练 集 本 身 的 样本 点 几乎 都 被 正确 分 类 , 但 训练 集 之 外 的 点 分 类 不 够 
准确 。 

当 发 生 过 拟 合 时 ,我 们 需要 适当 增 大 参数 k。 试 想 当 k=1 时 ， 所 有 训练 集 内 部 的 点 绝对 会 
被 正确 分 类 (如果 不 考虑 有 重合 样本 点 且 标 签 不 同 的 情况 ) ， 这 是 因为 每 个 点 离 它 最 近 的 点 就 
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是 自己 。 这 样 训练 集 的 准确 率 可 以 达到 100%。 但 测试 集中 一 旦 有 和 训练 集 不 同 的 点 ， 预 测 效 
果 就 难以 保证 了 。 随 着 k 的 增 大 ， 模 型 更 不 容易 收 到 离 群 值 的 影响 ， 预 测 效 果 更 加 稳定 。 


6.4.2 KNN 实例 : 波士顿 房价 预测 


下 面 我 们 使 用 KNN 来 预测 波士顿 房价 。 首 先 从 skean 案例 库 中 读 取 数据 集 ， 并 进行 训 
练 集 和 测试 集 的 分 离 : 


from sklearn.datasets import load boston 

boston - load boston() 

X train, X test, y train, y test = train test split (boston.data, boston.target, 
test size-0.20) 


先 简单 了 解 一 下 这 个 数据 集 。 该 数据 集 包 括 13 个 特征 ，1 个 连续 目标 变量 。 数 据 集 共 有 
506 个 观测 值 ， 没 有 缺失 值 。 下 面 我 们 载 入 KNeighborsRegressor 程序 包 ， 拟 合 模型 : 


from sklearn.neighbors import KNeighborsRegressor 
model = KNeighborsRegressor(n neighbors = 2) # 指 定 k = 2 
model = model.fit(X train, y train) 


考察 模型 在 训练 集 和 测试 集 的 预测 效果 : 


y pred train = model.predict(X train) 

train mse - mean squared error(y train, y pred train) 

train r2 = r2 score(y train, y pred train) 

print("The train MSE is %s\nR2 score is $s." $ (train mse, train r2)) 

















y pred test - model.predict(X test) 

test mse - mean squared error(y test, y pred test) 

test r2 - r2 score(y test, y pred test) 

print("The test MSE is %s\nR2 score is $s." $ (test mse, test r2)) 


输出 结果 如 下 : 
The train MSE is 11.15858910891089 
R2 score is 0.8580449550247061.| 


The test MSE is 79.42911764705882 
R2 score is 0.2417360194653808. 


我 们 再 来 看 测试 集 预测 值 与 真实 值 的 散 点 图 情况 〈 见 图 6-21) : 


plt.scatter(y test, y pred test) 





50 . 


40 


3 














621 散 点 图 
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可 以 看 到 模型 在 训练 集 上 表现 得 还 不 错 ， 但 在 测试 集 上 表现 得 比较 粮 灿 ，R2 score 只 有 
0.24。 下 面 我 们 将 k 的 值 改 为 5， 重新 拟 合 模 型 ， 重 复 上 述 过 程 : 


model = KNeighborsRegressor(n neighbors = 5) HBEk-5 
model = model.fit(X train, y train) 
得 到 结果 如 下 : 


The train MSE is 21.825430693069308 
R2 score is 0.7223457226177756. 

The test MSE is 73.26099607843139 
R2 score is 0.3006195190131322. 














散 点 图 如 图 6-22 Bras o 
» e. 6g j e 
3 EY ee 
ez zs ME. i 
s AM C 
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将 k 从 2 改 为 5 之 后 ,训练 集 表 现下 降 , 测试 集 表现 提升 , 但 训练 集 与 测试 集 之 间 的 差距 
依然 很 大 。 现 在 我 们 来 尝试 对 原始 数据 做 标准 化 处 理 ， 加 载 skleam 中 的 scale 函数 ， 对 数据 
进行 标准 化 : 

from sklearn.preprocessing import scale 


X train = scale(X train) 
X test - scale(X test) 


我 们 依然 取 k=2， 重 复 后 续 步骤 : 


The train MSE is 4.169034653465347 
R2 score is 0.9469632320036206. 
The test MSE is 33.26757352941176 
R2 score is 0.6824136604509548. 














散 点 图 如 图 6-23 所 示 。 
wot d 
? = nS . 
2 E AST t 
ied 
图 6-23 散 点 图 
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可 以 发 现 模型 的 效果 显著 提升 ， 特 别 是 测试 集 的 R2 score 比 原来 好 了 很 多 。 同 时 ， 我 们 
可 以 看 到 测试 集 的 散 点 图 中 的 点 更 加 集中 在 45 度 线 上 ， 说 明 预 测 值 与 真实 值 普 遍 变 得 更 加 接 
近 。 经 过 后 续 探 究 我 们 发 现 ， 此 时 再 改变 k 的 值 并 不 会 给 测试 集 得 分 带 来 改善 。 因 此 ， 这 里 我 
们 选用 k=2 作为 最 终 模型 。 


6.4.3 ”算法 评价 


KNN 算法 无 须 训 练 带 来 的 直接 好 处 是 模型 简洁 易 懂 ， 易 于 通过 代码 实现 。 整 个 预测 过 程 
看 似 只 有 “一 步 ”， 就 是 选择 离 目 标点 最 近 的 k 个 点 。 但 模型 简单 并 不 意味 着 计算 简单 。 这 也 
是 KNN 算法 最 遗憾 的 一 点 。 要 选 出 离 目标 点 最 近 的 上 个 点 , 我 们 在 图 中 可 以 一 目 了 然 地 找到 。 
但 计算 机 需要 遍历 整个 样本 集 才能 找 出 这 个 点 。 加 入 预测 集 有 200 条 样本 需要 预测 , 那么 对 
于 这 200 个 点 中 的 每 一 个 点 , 都 需要 计算 和 训练 集中 所 有 样本 点 之 间 的 距离 ,以 便 选 出 其 中 最 
近 的 k 个 点 ， 这 个 计算 量 是 巨大 的 。 





5.5 决策 树 算法 


决策 树 是 使 用 树 形 结构 进行 决策 的 模型 。 决 策 树 很 适合 用 于 工业 界 的 机 器 学 习 建 模 ， 因 为 
树 的 一 个 最 大 优点 就 是 过 程 简单 ， 易 于 理解 ,你 可 以 很 清晰 地 将 其 决策 的 依据 讲 给 一 个 不 懂 机 
器 学 习 的 局 外 人 。 比 如 我 们 可 以 展示 如 图 6-24 所 示 的 树 形 图 ， 让 客户 或 行业 外 的 人 直观 地 看 
到 决策 路 径 ， 使 模型 的 结果 具备 较 强 的 说 服 力 。 





624 决策 树 实例 


在 决策 树 上 ， 叶 子 节点 是 决策 树 末端 的 节点 ， 代 表 分 类 结果 。 图 6-24 PREIA OB 
形 表示 的 节点 ) 均 为 叶子 节点 。 那么 问题 来 了 ,我 们 从 最 上 面 的 节点 出 发 ,对 于 每 个 节点 ， 应 
该 如 何 选择 决策 条 件 呢 ? 要 用 X1、X2、X3 中 的 哪个 变量 进行 区 分 ? 假设 我 们 定 下 来 要 用 XI 
进行 区 分 ， 又 该 选择 什么 数值 作为 分 界 点 呢 ? 

这 些 分 界 点 是 要 通过 训练 得 到 的 。 上 述 各 个 节点 所 选择 的 特征 和 数值 就 是 决策 树 要 训练 的 
参数 。 但 我 们 要 告诉 决策 树 选择 的 原则 ， 这 里 介绍 的 是 CART 决策 树 算法 。 除 此 之 外 ， 还 有 
ID3、C4.5 算法 。 它 们 的 差异 是 节点 选择 参数 的 标准 不 同 。 下 面 我 们 介绍 CART 算法 。 
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1. CART 决策 树 模型 


每 个 节点 可 以 选择 的 分 界 条 件 很 多 ， 比 如 “X1>50”“X2>3”“X3=False” 等 。 我 们 需要 
从 所 有 分 界 点 中 选择 给 我 们 带 来 信息 收益 增 量 最 大 的 一 个 。 下面 通 过 一 个 应 用 案例 C85 FERT 
类 识别 ) 来 说 明 CART 算法 。 

首先 ， 读 取 iris 数据 ， 这 里 读 取 的 是 本 地 的 CSV 文件 : 


data = pd.read csv('C:\\Users\\Liangyue\Desktop\\iris.csv') 


回顾 一 下 ， 这 个 数据 集 包括 花瓣 长 度 (PetalLenthCm) 、 花 茎 长 度 CSepalLenthCm) 、 花 
办 宽度 (PetalWidthCm) 和 花茎 宽 度 (SepalWidthCm) 四 个 连续 型 特征 ， 一 个 包括 3 种 分 类 
类 别 的 目标 变量 (Species) ， 如 图 6-25 所 示 。 


a» x 
SepalLengthCm N M 
numeric 0% 584 
00 40 
SepalWidthCm N M 
numeric 0% 3.05 
0 eso 
PetalLengthCm N M 
numeric 0% 3.76 
» o 
PetalWidthCm N M 
numeric 0% 120 
iris-setosa (33%) inis-versicolor (33%) 
Species N 
string 0% 3 Iris-virginica (33%) 








图 6-25 SREPARAWMRB 
原始 数据 包括 150 个 样本 ， 我 们 将 120 个 样本 用 于 训练 集 ， 其 余 当 作 测试 集 : 


X train, X test, y train, y test = 
train test split (data.drop(['Id','Species'],axis-1), 
data['Species'], test size-0.20) 


构建 决策 树 : 
from sklearn import tree # 读 取 sklearn 的 树 模型 
model = tree.DecisionTreeClassifier() # 声 明 树 模型 
model = model.fit(X train, y train # 拟 合 数据 


tree.DecisionTreeClassifier() 是 这 个 算法 的 核心 模块 。 这 里 我 们 并 没有 在 括号 里 向 模型 传递 
参数 ， 所 有 参数 均 为 默认 值 。DecisionTreeClassifier0 可 以 接受 以 下 arguments: 


criterion: 指定 节点 的 参数 计算 标准 ， 默 认为 “cart” 

树 的 最 大 优点 在 于 可 视 化 的 直观 性 。 我 们 可 以 用 graphviz 程序 包 进 行 树 模型 的 可 视 化 。 要 
使 用 这 个 工具 ,就 要 在 控制 台中 安装 graphviz。 以 Anaconda prompt 为 例 ,打开 Anaconda prompt, 
输入 如 下 指令 : 
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conda install python-graphviz 


接 下 来 回 到 代码 界面 ， 读 取 并 使 用 这 个 程序 包 ， 可 以 得 到 如 图 6-26 所 示 的 决策 树 : 





import graphviz # 读 取 程 序 包 
dot data = tree.export graphviz (model, feature names = X train.columns, 
class names - ['setosa','versicolor','virginica'], 


filled - True, out file-None) 
graph = graphviz.Source(dot data) 
graph 


PetalLengthCm <= 2.45 
gini = 0.666 
5 l 








PetalWidthCm <= 1.75 
gi 499 
samples = 81 

value = [0, 39, 42] 

class = virginica 









626 决策 树 


图 6-26 中 , 橙色 、 绿 色 和 紫色 三 种 颜色 的 叶子 节点 分 别 对 应 setosa、versicolor 和 virginica 
三 种 意 尾 花 类 别 ， 也 就 是 我 们 的 决策 结果 。 现 在 了 解 了 模型 的 决策 路 线 ， 下 面 调用 predict 指 
令 来 进行 预测 。 

在 训练 集 上 的 预测 : 


181 


人 工 智 能 与 大 数据 技术 导论 


y pred train = model.predict(X train) 


train accuracy - np.mean(y train -- y pred train) 
print("The Train Accuracy is $.1f$$" % (train accuracy * 100)) 
结果 如 下 : 


The Train Accuracy is 100.0% 


可 以 看 到 准确 率 达 到 了 100%。 


在 测试 集 上 的 预测 : 

y pred test = model.predict(X test) 

test accuracy = np.mean(y test —- y pred test) 

print("The Train Accuracy is $.1f$$" $ (test accuracy * 100)) 
结果 如 下 : 


The Train Accuracy is 96.7% 
在 测试 集 上 的 准确 率 为 96.7%，30 个 测试 样本 有 29 个 预测 正确 。 
2. 模型 总 结 
决策 树 很 容易 出 现 过 拟 合 。 因 为 只 要 树 的 深度 足够 大 (叶子 节点 足够 多 ) ， 我 们 总 是 能 完 


美 地 拟 合 训练 集 的 数据 ,只 要 我 们 把 训练 集 每 一 个 样 例 作 为 一 个 单独 的 叶子 节点 即 可 。 决 策 树 
的 优点 是 具有 极 高 的 可 解释 性 。 


6.6 ”集成 算法 


前 面 我 们 了 解 了 如 何 使 用 决策 树 进行 分 类 和 回归 。 决 策 树 很 少 会 直接 拿 来 使 用 , 这 是 因为 
随 着 树 的 深度 增 大 很 容易 发 生 过 拟 合 。 本 节 介 绍 的 基于 树 的 集成 算法 很 好 地 解决 了 这 一 问题 。 
集成 算法 是 机 器 学 习 中 最 重要 的 思想 之 一 。 绝 大 多 数 集成 算法 都 是 基于 树 的 集成 算法 , 反 过 来 
几乎 所 有 用 到 树 的 模型 都 是 通过 集成 算法 进行 封装 而 实现 的 。 集 成 算法 既 可 以 用 于 分 类 , 也 可 
以 用 于 回归 。 在 讲解 概念 时 ， 为 了 方便 ， 在 没有 特别 说 明 时 ， 我 们 默认 讨论 分 类 集成 算法 。 回 
归 问题 的 思路 与 分 类 问题 相似 。 


6.6.1 集成 算法 简 述 


集成 算法 是 将 多 个 分 类 器 结合 而 成 的 新 的 分 类 算法 。 集成 算法 由 一 系列 的 弱 分 类 器 (weak 
classifiers) 组 成 ， 这 些 弱 分 类 器 通常 是 非常 简单 的 分 类 器 ， 比 如 决策 树 。 通 过 将 这 些 弱 分 类 器 
组 合 在 一 起 ,形成 一 个 性 能 更 强 的 分 类 器 ,作为 最 终 预 测 的 输出 结果 。 最 常见 的 集成 学 习 手 段 
有 两 种 :Bagging 和 Boosting。 前 者 的 代表 算法 是 随机 森林 ， 后 者 的 代表 算法 包括 Adaboost、 
GBDT 和 Xgboost. 

Bagging 和 Boosting 都 采取 了 上 述 集成 学 习 的 思想 ,将 若干 个 弱 分 类 器 进行 组 合 。 假 设 弱 











182 


第 6 章 机 器 学 习 算法 


分 类 器 有 工 个 ， 那 么 一 共 就 需要 工 轮 训练 。 不 同 的 是 ， 在 Bagging 中 ， 各 个 弱 分 类 器 的 训练 
是 并 行进 行 的 ， 而 Boosting 中 的 工 轮训 练 需要 依次 进行 。 


6.6.2 ”集成 算法 之 Bagging 


Bagging 是 将 一 系列 弱 分 类 器 Fl(x), F2(x)，.….Fb(x) 并 行进 行 训练 ， 然 后 对 结果 取 平 均值 
(Regression) ， 或 者 投票 (Classification) 而 产生 最 终 预 测 结果 ， 其 基本 流程 如 图 6-27 所 示 。 
Bagging 整个 过 程 一 共 进 行 了 T 轮 训练, 每 一 轮 使 用 的 弱 分 类 器 都 是 二 又 树 ， 但 读 取 的 训练 数 
据 集 不 同 。 在 每 个 弱 分 类 器 训练 中 ， 从 样本 中 随机 有 放 回 地 抽取 N 个 样本 ，N 是 样本 集 样本 
的 个 数 。 在 这 个 过 程 中 ， 某 一 个 特定 的 样本 XG) 可 能 被 使 用 多 次 ， 也 可 能 未 被 使 用 。 各 个 弱 分 
类 器 抽取 样本 的 过 程 是 独立 的 。 





6-27 Bagging 流程 


Random Forest( 随 机 森林 ) 是 最 著名 也 是 最 实用 的 Bagging 算法 之 一 。 正 如 其 名 字 一 般 ， 
“随机 森林 ”由 多 棵 树 组 成 ， 单独 一 棵 树 是 一 个 弱 分 类 器 ,将 很 多 树 组 合 在 一 起 ,就 形成 了 具 
有 强大 预测 能 力 的 “森林 ”。 这 个 组 合 的 过 程 就 是 通过 Bagging 完成 的 。 每 一 棵 树 是 一 个 弱 分 
类 器 ,在 样本 集 的 一 个 Bootstrap 上 训练 完成 。 最 终 将 T 棵 树 的 结果 汇总 〈 投 票 或 取 平 均值 ) ， 
生成 最 终 的 输出 。 

但 随机 森林 不 止 如 此 。 在 上 述 介 绍 Bagging 的 基础 上 ， 对 于 每 一 个 弱 分 类 器 ,在 训练 前 除 
了 随机 选择 样本 (Bagging 的 基本 定义 ) 外 ， 还 要 从 特征 集中 随机 选 出 一 个 特征 子 集 来 训练 。 
这 样 做 是 为 了 让 每 棵 树 学 习 得 不 要 太 相似 一 一 如 果 有 几 个 特征 和 目标 变量 是 强 相 关 的 ,那么 这 
些 特征 在 所 有 树 中 都 会 被 挑选 出 来 .随机 森林 算法 从 n 个 特征 中 随机 选 出 其 中 的 p 个 用 于 训练 ， 
可 以 有 效 防 止 这 种 情况 发 生 , 每 棵 树 在 受 限 的 p 个 变量 中 进行 训练 ， 可 以 让 不 同 的 树 “ 长 得 更 
不 一 样 ”。 

下 面 我 们 给 出 随机 森林 的 具体 算法 : 
| 20 v dus 
从 训练 集中 有 放 回 地 抽取 nm 个 样本 ， 组 成 {xt，Yt} 


从 个 特征 中 无 放 回 地 抽取 p 的 特征 ， 在 {Xt，Yt} 中 仅 保留 该 子 特征 集 
在 {Xt，Yt} 上 训练 决策 树 Ft (X) 
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End 


6.6.3 ”集成 算法 之 Boosting 


6.62 小 节 讲 解 了 Bagging 及 其 代表 算法 随机 森林 。 本 节 我 们 来 介绍 集成 算法 的 另 一 大 思 
#8: Boosting。 前 文 提 到 ，Boosting 和 Bagging 最 大 的 区 别 是 Boosting 的 一 轮 轮 训练 是 依次 进 
行 的 ， 而 不 是 像 Bagging 一 样 是 相互 独立 的 。 其 核心 过 程 可 以 用 图 6-28 来 描述 。 





6-28 Boosting 算法 


Boosting 的 核心 策略 是 一 步 步 修正 模型 ,使 之 逐渐 逼近 真实 的 映射 关系 。 每 一 个 弱 分 类 器 
是 建立 在 前 一 个 的 基础 上 进行 的 , 受到 前 一 个 分 类 器 效果 的 反馈 加 以 改进 , 使 得 当前 的 分 类 器 
比 前 一 轮 做 得 更 好 。Boosting 的 代表 算法 有 Adaboost、GBDT 和 Xgboost。 后 两 者 和 Random 
Forest 是 机 器 学 习 竞赛 中 效果 最 出 色 的 模型 ， 在 工业 界 中 也 极其 受 欢迎 。 


Adaboost 


Adaboost 主要 用 于 分 类 ， 其 核心 思路 是 在 每 一 个 弱 分 类 器 之 后 对 预测 值 和 真实 值 进行 比 
较 , 然后 将 分 类 错误 的 样本 点 在 下 一 个 分 类 器 中 赋予 更 高 的 权重 , 使 得 在 下 一 次 训练 中 不 容易 
再 被 分 错 。 其 算法 如 下 : 


初始 化 权重 (weight) : wt (xi) = 1/m 

for tz1;2, T 

Q) 以 Wt (x) 为 样本 权重 ， 使 用 第 t 个 弱 分 类 器 对 输入 数据 进行 分 类 ， 得 到 分 类 结果 nt (x) 
(2) 计算 分 类 器 的 错误 率 Et= errorNum / m， 其 中 errorNunm 为 分 类 错误 的 样本 数 ，m 为 总 样本 
数 。 计算 zt = sqrt (Et (1-Et)) 

(3) 计算 at 的 值 并 保存 : at = 1/2 * 1n((1-Et) /Et) 

(4) 更 新 数据 集 各 个 数据 的 权重 : 

Forai si; 2 N: 

若 ht (xi) = y(xi) (分 类 器 结果 与 真实 标签 值 相同 ， 即 分 类 正确 ) : 

Wt+1 (i) = Wt(i) * e^ (-at) / zt 

dint(xi) # y(xi) (分 类 器 结果 与 真实 标签 值 不 同 ， 即 分 类 错误 ) : 

Wt+1 (i) = Wt(i) * e^at / Zt 


6.7 聚 类 算法 


我 们 童年 的 学 习 是 从 认 知 开始 的 , 通过 看 卡片 和 实物 认识 了 各 类 事物 ,并且 对 具有 类 似 特 
征 的 事物 进行 归纳 和 总 结 。 这 个 过 程 在 机 器 学 习 中 被 称 为 “ 聚 类 ”,， 是 把 彼此 类 似 的 对 象 组 成 
一 类 的 分 析 过 程 。 聚 类 学 习 是 一 种 无 监督 式 学习 , 在 这 个 过 程 中 ,从 获得 具体 的 样本 向 量 到 得 
出 聚 类 结果 ， 人 们 是 不 用 进行 干预 的 ， 这 就 是 “无 监督 ”一 词 的 由 来 。 

在 机 器 学 习 中 , 无 监督 式 学 习 一 直 是 我 们 追求 的 方向 , 而 其 中 的 聚 类 算法 更 是 发 现 隐 藏 数 
据 结构 与 知识 的 有 效 手 段 。 目 前 ， 如 谷歌 新 闻 等 很 多 应 用 都 将 聚 类 算法 作为 主要 的 实现 手段 ， 
它们 能 利用 大 量 的 未 标注 数据 构建 强大 的 主题 聚 类 。 聚 类 与 分 类 的 不 同 在 于 , 聚 类 所 要 求 划分 
的 类 是 未 知 的 。 聚 类 是 将 数据 分 类 到 不 同 的 类 或 者 簇 这 样 的 一 个 过 程 , 所 以 同一 个 簇 中 的 对 象 
有 很 大 的 相似 性 ， 而 不 同 簇 间 的 对 象 有 很 大 的 相 异 性 。 

从 统计 学 的 观点 看 , 聚 类 分 析 是 通过 数据 建 模 简化 数据 的 一 种 方法 。 传统 的 统计 聚 类 分 析 
方法 包括 系统 聚 类 法 、 分 解法 、 加 入 法 、 动 态 聚 类 法 、 有 序 样品 聚 类 、 有 重 登 聚 类 和 模糊 聚 类 
等 。 采 用 k- 均 值 、k- 中 心 点 等 算法 的 聚 类 分 析 工 具 已 被 加 入 许多 著名 的 统计 分 析 软 件 包 中 ， 如 
SPSS、SAS 等 。 

从 机 器 学 习 的 角度 讲 , 簇 相当 于 隐藏 模式 。 聚 类 是 搜索 簇 的 无 监督 式 学 习 过 程 。 与 分 类 不 
同 , 无 监督 式 学 习 不 依赖 预先 定义 的 类 或 带 类 标记 的 训练 实例 ,需要 由 聚 类 学 习 算法 自动 确定 
标记 ， 而 分 类 学 习 的 实例 或 数据 对 象 有 类 别 标记 。 聚 类 是 观察 式 学 习 ， 而 不 是 示例 式 学 习 。 

聚 类 分 析 是 一 种 探索 性 的 分 析 ， 在 分 类 的 过 程 中 ， 人 们 不 必 事 先 给 出 一 个 分 类 的 标准 , 聚 
类 分 析 能 够 从 样本 数据 出 发 ， 自 动 进行 分 类 。 聚 类 分 析 所 使 用 的 方法 不 同 ， 常 常会 得 到 不 同 的 
结论 。 不 同 研究 者 对 于 同一 组 数据 进行 聚 类 分 析 ， 所 得 到 的 聚 类 数 未 必 一 致 

从 实际 应 用 的 角度 看 ， 聚 类 分 析 是 数据 挖掘 的 主要 任务 之 一 。 而 且 聚 类 能 够 作为 一 个 独立 
的 工具 获得 数据 的 分 布 状况 ,观察 每 一 簇 数 据 的 特征 ,集中 对 特定 的 聚 入 集合 做 进一步 的 分 析 。 
聚 类 分 析 还 可 以 作为 其 他 算法 (如 分 类 和 定性 归纳 算法 ) 的 预 处 理 步骤 。 

本 节 从 简单 高 效 的 K 均值 聚 类 开始 ， 依 次 介绍 均值 漂移 聚 类 、 基 于 密度 的 聚 类 、 利 用 高 
斯 混合 和 最 大 期 望 方法 聚 类 、 层 次 聚 类 和 适用 于 结构 化 数据 的 图 团体 检测 。 我们 不 仅 会 分 析 基 
本 的 实现 概念 ， 同 时 还 会 给 出 每 种 算法 的 优 缺 点 以 明确 实际 的 应 用 场景 。 


6.7.1 K 均值 聚 类 


聚 类 是 一 种 包括 数据 点 分 组 的 机 器 学 习 技术 。 给 定 一 组 数据 点 , 我 们 可 以 用 聚 类 算法 将 每 
个 数据 点 分 到 特定 的 组 中 。 理论 上 , 属于 同一 组 的 数据 点 应 该 有 相似 的 属性 或 特征 , 而 属于 不 
同 组 的 数据 点 应 该 有 不 同 的 属性 和 /或 特征 。 聚 类 是 一 种 无 监督 式 学 习 的 方法 ， 是 一 种 在 许多 
领域 常用 的 统计 数据 分 析 技 术 。K 均值 (K-Means) 可 能 是 最 知名 的 聚 类 算法 ，K-Means 是 将 
了 个 数据 样本 划分 成 K 个 聚 类 的 算法 ， 使 得 同一 聚 类 中 的 样本 相似 度 较 高 ， 不 同 聚 类 样本 的 相 
似 度 较 低 。K-Means 是 很 多 入 门 级 数据 科学 和 机 器 学 习 课程 的 内 容 , 在 代码 中 很 容易 理解 和 实 
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现 。 请 看 图 6-29 的 例子 。 











629 KHER 


K-Means 的 工作 原理 为 : 对 于 将 含有 n 个 样本 组 成 的 样本 集 分 成 k 类 的 任务 , 按照 如 下 步 
又 进行 : 





CD. 从 n 个 样本 中 随机 选取 k 个 点 作为 初始 聚 类 中 心 。 

(2) 计算 每 个 样本 到 各 个 聚 类 中 心 的 相似 度 ， 并 划分 到 相似 度 最 高 的 聚 类 中 心 。 
(3) 重新 计算 每 个 聚 类 的 均值 ， 将 其 作为 新 的 聚 类 中 心 。 

(4) 重复 步骤 (2) 和 (3) ， 直 到 所 有 聚 类 中 心 不 再 改变 为 止 。 


可 以 看 到 ，K-Means 算法 是 一 个 反复 迭代 求解 的 过 程 。K 是 需要 预先 设 定好 的 超 参数 。 
K-Means 的 优势 在 于 速度 快 ， 因 为 我 们 真正 做 的 是 计算 点 和 组 中 心 之 间 的 距离 ， 只 需要 非常 
少 的 计算 。 因 此 ， 它 具有 线性 复杂 度 O(n)。 另 一 方面 ，K-Means 有 一 些 缺点 。 首 先 ， 你 必须 
选择 有 多 少 组 /类 。 理 想 情况 下， 我们 希望 聚 类 算法 能 够 解决 分 多 少 类 的 问题 。K-Means 也 从 
随机 选择 的 聚 类 中 心 开 始 ， 所 以 它 可 能 在 不 同 的 算法 中 产生 不 同 的 聚 类 结果 。 因 此 , 结果 可 能 
不 可 重复 并 缺乏 一 致 性 。 其 他 聚 类 方法 更 加 一 致 。K-Medians 是 与 K-Means 有 关 的 另 一 个 聚 
类 算法 ,除了 不 是 用 均值 而 是 用 组 的 中 值 向 量 来 重新 计算 组 中 心 ,这 种 方法 对 异常 值 不 敏感 ( 因 
为 使 用 中 值 》, 但 对 于 较 大 的 数据 集 要 慢 得 多 ， 因 为 在 计算 中 值 向 量 时 , 每 次 迭代 都 需要 进行 
排序 。 


6.7.2 均值 漂移 聚 类 


均值 漂移 聚 类 是 基于 滑动 窗口 的 算法 , 它 试图 找到 数据 点 的 密集 区 域 。 这 是 一 个 基于 质心 
的 算法 ， 意 味 着 它 的 目标 是 定位 每 个 组 /类 的 中 心 点 ， 通 过 将 中 心 点 的 候选 点 更 新 为 滑动 窗口 
内 点 的 均值 来 完成 。 然 后 , 在 后 处 理 阶段 对 这 些 候选 窗口 进行 过 滤 以 消除 近似 重复 , 形成 最 终 
的 中 心 点 集 及 其 相应 的 组 。 请 看 图 6-30 的 例子 。 
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图 6-30 均值 漂移 聚 类 


为 了 解释 均值 漂移 ,我 们 将 考虑 二 维 空间 中 的 一 组 点 ,如 图 5-28 所 示 。 我 们 从 一 个 以 C 点 
(随机 选择 ) 为 中 心 ， 以 半径 r 为 核心 的 圆 形 滑动 窗口 开始 。 均 值 漂移 是 一 种 爬山 算法 ， 它 
包括 在 每 一 步 中 迭代 地 向 更 高 密度 区 域 移动 , 直到 收敛 。 在 每 次 迭代 中 ,滑动 窗口 通过 将 中 心 
点 移 向 窗口 内 点 的 均值 (因此 而 得 名 ) 来 移 向 更 高 密度 区 域 。 滑 动 窗口 内 的 密度 与 其 内 部 点 的 
数量 成 正比 。 自 然 ， 通过 向 窗口 内 点 的 均值 移动 ,会 逐渐 移 向 点 密度 更 高 的 区 域 。 我 们 继续 按 
照 均值 移动 滑动 窗口 , 直到 没有 区 域 在 核 内 可 以 容纳 更 多 的 点 。 我 们 一 直 移动 这 个 圆 直 到 密度 
不 再 增加 ( 即 窗口 中 的 点 数 )。 这 是 通过 许多 滑动 窗口 完成 的 , 直到 所 有 的 点 位 于 一 个 窗口 内 。 
当 多 个 滑动 窗口 重 登 时， 保留 包含 最 多 点 的 窗口 。 然 后 根据 数据 点 所 在 的 滑动 窗口 进行 聚 类 。 

与 K-Means 聚 类 相 比 ， 这 种 方法 不 需要 选择 簇 数 量 ， 因 为 均值 漂移 自动 发 现 这 一 点 。 这 
是 一 个 巨大 的 优势 。 它 的 缺点 是 窗口 大 小 /半径 的 选择 可 能 是 不 重要 的 。 


6.7.3 ”基于 密度 的 聚 类 方法 


DBSCAN 是 一 种 基于 密度 的 聚 类 算法 ， 类 似 于 均值 漂移 ， 但 具有 一 些 显著 的 优点 。 请 看 
图 6-31 的 例子 。 





[Restart| 一 * — Pause 


图 6-31 基于 密度 的 聚 类 算法 


187 


人 工 智能 与 大 数据 技术 导论 


DBSCAN 从 一 个 没有 被 访问 过 的 任意 起 始 数据 点 开始 。 这 个 点 的 邻 域 是 用 距离 s Ce BB 
离 内 的 所 有 点 都 是 邻 域 点 ) 提取 的 。 如 果 在 这 个 邻 域内 有 足够 数量 的 点 (根据 minPoints) ， 
则 到 类 过 程 开始 ， 并 且 当 前 数据 点 成 为 新 簇 的 第 一 个 点 。 否 则 ,该 点 将 会 被 标记 为 噪声 ( 稍 后 
这 个 噪声 点 可 能 仍 会 成 为 聚 类 的 一 部 分 ) 。 在 这 两 种 情况 下 ， 该 点 都 被 标记 为 “已 访问 ”。 对 
于 新 簇 中 的 第 一 个 点 , 其 e 距离 邻 域内 的 点 也 成 为 该 簇 的 一 部 分 。 这 个 使 所 有 邻 域内 的 点 
都 属于 同一 个 簇 的 过 程 将 对 所 有 刚刚 添加 到 簇 中 的 新 点 进行 重复 。 重复 步骤 , 直到 簇 中 所 有 的 
点 都 被 确定 ， 即 簇 的 。 邻 域内 的 所 有 点 都 被 访问 和 标记 过 。 一 旦 我 们 完成 了 当前 的 簇 ,一 个 新 
的 未 访问 点 将 被 检索 和 处 理 ， 导 致 发 现 男 一 个 簇 或 噪声 。 重 复 这 个 过 程 ， 直到 所 有 的 点 被 标记 
为 已 访问 。 由 于 所 有 点 都 已 经 被 访问 ， 因 此 每 个 点 都 属于 某 个 簇 或 噪声 。 

DBSCAN 与 其 他 聚 类 算法 相 比 有 很 多 优点 。 首 先 ， 它 根本 不 需要 固定 数量 的 徐 ， 也 会 将 
异常 值 识别 为 噪声 ， 而 不 像 均 值 漂移 ， 即 使 数据 点 非常 不 同 ， 也 会 简单 地 将 它们 分 入 簇 中 。 另 
Bhs 它 能 够 很 好 地 找到 任意 大 小 和 任意 形状 的 簇 。 DBSCAN 的 主要 缺点 是 当 簇 的 密度 不 同时 ， 
表现 不 如 其 他 聚 类 算法 。 这 是 因为 当 密 度 变化 时 ， 用 于 识别 邻 域 点 的 距离 闹 值 。 和 minPoints 
的 设置 将 会 随 着 簇 而 变化 。 这 个 缺点 也 会 在 非常 高 维度 的 数据 中 出 现 , DEA GS BREL © 再 次 变 
得 难以 估计 。 


6.7.4 用 高 斯 混合 模型 的 最 大 期 望 聚 类 

K-Means 的 一 个 主要 缺点 是 它 对 于 聚 类 中 心 均值 的 简单 使 用 。 通 过 图 6-30， 我 们 可 以 明 
白 为 什么 这 不 是 最 佳 方法 。 在 图 5-32 的 左 侧 ， 可 以 非常 清楚 地 看 到 有 两 个 具有 不 同 半径 的 贺 
形 馈 ， 以 相同 的 均值 作为 中 心 。K-Means 不 能 处 理 这 种 情况 ， 因 为 这 些 簇 的 均值 是 非常 接近 
的 。K-Means 在 能 不 是 圆 形 的 情况 下 也 失败 了 ， 同 样 是 由 于 使 用 均值 作为 聚 类 中 心 。 








图 6-32 高 斯 混合 模型 


高 斯 混合 模型 《GMMs) HE K-Means 给 了 我 们 更 多 的 灵活 性 。 对 于 GMMs， 我 们 假设 数 
据点 是 高 斯 分 布 的 ， 相 对 于 使 用 均值 假设 它们 是 圆 形 的 ， 这 是 一 个 限制 较 少 的 假设 。 这样, 我 
们 有 两 个 参数 来 描述 簇 的 形状 : 均值 和 标准 差 。 以 二 维 为 例 ， 这 意味 着 ,这些 簇 可 以 采取 任何 
类 型 的 椭圆 形 (因为 我 们 在 x 和 y 方 向 都 有 标准 差 ) 。 因 此 ， 每 个 高 斯 分 布 被 分 配给 单个 簇 。 
为 了 找到 每 个 簇 的 高 斯 参数 〈 例 如 均值 和 标准 差 ) ， 我 们 将 用 一 个 叫 作 最 大 期 望 (EM) 的 优 
化 算法 。 请 看 图 6-33 的 图 表 ， 这 是 一 个 高 斯 适用 于 簇 的 例子 。 然 后 我 们 可 以 使 用 GMMs 继续 
进行 最 大 期 望 聚 类 的 过 程 。 
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6-33 ”使 用 GMMs 的 EM R% 


我 们 首先 选择 簇 的 数量 (如 K-Means 所 做 的 ) ， 并 随机 初始 化 每 个 簇 的 高 斯 分 布 参数 。 
也 可 以 通过 快速 查看 数据 来 尝试 为 初始 参数 提供 一 个 好 的 猜测 。 但 是 请 注意 ， 正 如 图 6-33 中 
所 看 到 的 ， 这 不 是 100% 必要 的 。 给 定 每 个 簇 的 高 斯 分 布 ， 计 算 每 个 数据 点 属于 一 个 特定 簇 
的 概率 。 一 个 点 越 靠近 高 斯 的 中 心 ， 它 就 越 可 能 属于 该 秘 。 这 应 该 是 很 直观 的 ， 因 为 对 于 高 斯 
分 布 , 我 们 假设 大 部 分 数据 更 靠近 簇 的 中 心 。 基 于 这 些 概率 , 计算 一 组 新 的 高 斯 分 布 参 数 ， 使 
得 簇 内 的 数据 点 的 概率 最 大 化 。 我 们 使 用 数据 点 位 置 的 加 权 和 来 计算 这 些 新 参数 , 其 中 权重 是 
数据 点 属于 该 特定 簇 的 概率 。 为 了 用 可 视 化 的 方式 解释 它 ， 我 们 可 以 看 一 下 图 6-33， 特 别 是 
黄色 的 簇 , 以 此 为 例 。 分 布 在 第 一 次 欠 代 时 随即 开始 , 我 们 可 以 看 到 大 部 分 黄 点 都 分 布 在 右 侧 。 
当 我 们 计算 一 个 概率 加 权 和 时 ， 即 使 中 心 附近 有 一 些 点 , 但 它们 大 部 分 都 在 右 侧 。 因 此 ,分 布 
的 均值 自然 会 接近 这 些 点 。 我 们 也 可 以 看 到 大 部 分 点 分 布 在 “从 右上 到 左下 ”。 因 此 改变 标准 
差 来 创建 更 适合 这 些 点 的 椭圆 ， 以 便 最 大 化 概率 加 权 和 。 
重复 步骤 直到 收敛 ， 其 中 分 布 在 从 代 中 的 变化 不 大 。 

使 用 GMMs 有 两 个 关键 的 优势 。 首 先 ，GMMs HE K-Means 在 秘 协 方差 方面 更 灵活 ， 因 
为 标准 差 参 数 , 簇 可 以 呈现 任何 椭圆 形状 , 而 不 是 被 限制 为 圆 形 。 K-Means 实际 上 是 GMM 的 
一 个 特殊 情况 ， 这 种 情况 下 ， 每 个 簇 的 协 方差 在 所 有 维度 都 接近 0。 其 次 ， 因 为 GMMs 使 用 
概率 ， 所 以 每 个 数据 点 可 以 有 很 多 徐 。 因此， 如 果 一 个 数据 点 在 两 个 重合 的 簇 的 中 间 , 我 们 可 
以 简单 地 通过 说 它 百 分 之 义 属 于 类 1， 百 分 之 了 属于 类 2 来 定义 它 的 类 ， 即 GMMs 支持 混合 
资格 。 


6.75 ”凝聚 层次 聚 类 
层次 聚 类 算法 实际 上 分 为 两 类 : 自 上 而 下 或 自 下 而 上 。 自 下 而 上 的 算法 首先 将 每 个 数据 点 


视 为 一 个 单一 的 簇 ， 然后 连续 地 合并 (或 聚合 ) MR, 直到 所 有 的 簇 都 合并 成 一 个 包含 所 有 
数据 点 的 簇 。 因 此 , 自 下 而 上 层次 聚 类 被 称 为 凝聚 式 层次 聚 类 或 HAC。 这 个 复 的 层次 用 树 (或 
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BORED 表示 。 树 的 根 是 收集 所 有 样本 的 唯一 徐 , 叶 是 仅仅 具有 一 个 样本 的 簇 。 在 进入 算法 步 
又 前 ， 请 看 图 6-34 的 例子 。 


Hierarchical Clustering Dendrogram 


Euclidean Distance 
w Án E 


~ 














0 1 2 3 4 5 5 7 pO pl p2 p3 på p5 p6 
Sample Index 


6-34 凝聚 式 层次 聚 类 


我 们 首先 将 每 个 数据 点 视 为 一 个 单一 的 徐 ， 即 如 果 我 们 的 数据 集中 有 X 个 数据 点 ， 那 么 
我 们 就 有 X 个 簇 。 然 后 ， 选 择 一 个 测量 两 个 簇 之 间距 离 的 距离 度量 标准 。 作 为 例子 ， 我 们 将 
用 average linkage， 它 将 两 个 簇 之 间 的 距离 定义 为 第 一 个 簇 中 的 数据 点 与 第 二 个 簇 中 的 数据 点 
之 间 的 平均 距离 。 在 每 次 迭代 中 , 我 们 将 两 个 簇 合并 成 一 个 。 这 两 个 要 合并 的 簇 应 具有 最 小 的 
average linkage。 即 根据 我 们 选择 的 距离 度量 标准 ， 这 两 个 簇 之 间 的 距离 最 小 ， 因 此 是 最 相似 
的 , 应 该 合并 在 一 起 。 重复 步骤 ,直到 到 达 树 根 ， 即 我 们 只 有 一 个 包含 所 有 数据 点 的 徐 。 这样， 
只 需要 选择 何 时 停止 合并 簇 ， 即 何 时 停止 构建 树 ， 来 选择 最 终 需 要 多 少 个 簇 。 

层次 聚 类 不 需要 我 们 指定 簇 的 数量 , 甚至 可 以 选择 哪个 数量 的 簇 看 起 来 最 好 ,因为 我 们 正 
在 构建 一 棵 树 。 另 外 ， 该 算法 对 于 距离 度量 标准 的 选择 并 不 敏感 ， 它 们 都 同样 表现 得 很 好 ， 而 
对 于 其 他 聚 类 算法 , 距离 度量 标准 的 选择 是 至 关 重 要 的 .层次 聚 类 方法 的 一 个 特别 好 的 例子 是 ， 
当 基 础 数据 具有 层次 结构 , 并 且 想 要 恢复 层次 时 , 其 他 聚 类 算法 不 能 做 到 这 一 点 。 与 K-Means 
和 GMMs 的 线性 复杂 度 不 同 , 层次 聚 类 的 这 些 优 点 是 以 较 低 的 效率 为 代价 的 ,因为 它 具 有 O(n 
?) 的 时 间 复杂 度 。 


6.76 图 团体 检测 


当 数 据 可 以 被 表示 为 一 个 网 络 或 图 (graph) 时 ， 我 们 可 以 使 用 图 团体 检测 C Graph 
Community Detection) 方法 完成 聚 类 。 在 这 个 算法 中 ， 图 团体 (graph community) 通常 被 定义 
为 一 种 顶点 〈vertice) 的 子 集 ， 其 中 的 顶点 相对 于 网 络 的 其 他 部 分 要 连接 得 更 加 紧密 。 

也 许 最 直观 的 案例 就 是 社交 网 络 。 其 中 的 顶点 表示 人 , 连接 顶点 的 边 表 示 他 们 是 朋友 或 互 
粉 的 用 户 。 但 是 , 若 要 将 一 个 系统 建 模 成 一 个 网 络 , 我 们 就 必须 要 找到 一 种 有 效 连接 各 个 不 同 
组 件 的 方式 。 将 图 论 用 于 聚 类 的 一 些 创新 应 用 包括 : 对 图 像 数 据 的 特征 提取 、 分 析 基 因 调 控 网 
络 (Gene Regulatory Networks, GRNs) 等 。 图 6-35 展示 了 最 近 浏 览 过 的 8 个 网 站 ， 根 据 它 
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们 在 维基 百科 页 面 中 的 链接 进行 了 连接 。 
Wikipedia 














Medi@.com 
图 6-35 ”图 团体 检测 颜色 参见 下 载 包 中 的 相关 文件 ) 


这 些 顶 点 的 颜色 表示 它们 的 团体 关系 ， 大 小 是 根据 它们 的 中 心 度 Centrality) 确定 的 。 这 
些 聚 类 在 现实 生活 中 也 很 有 意义 ， 其 中 黄色 项 点 通常 是 参考 /搜索 网 站 ， 蓝 色 项 点 全 部 是 在 线 
发 布 网 站 《文章 、 微 博 或 代码 ) 。 假 设 我 们 已 经 将 该 网 络 聚 类 成 了 一 些 团体 ， 就 可 以 使 用 该 模 
块 性 分 数 来 评估 聚 类 的 质量 。 分 数 更 高 表示 我 们 将 该 网 络 分 割 成 了 “准确 的 ”团体 ， 而 低 分 则 
表示 我 们 的 聚 类 更 接近 随机 ， 如 图 6-36 所 示 。 


LITET 
AN 


图 6-36 模块 性 (上面 一 组 为 高 模块 性 ， 下 面 一 组 为 低 模 块 性 ) 
模块 性 可 以 使 用 以 下 公式 进行 计算 : 


ig kikj 
M= ar 2. (4, - =) óc; cj 


其 中 工 代表 网 络 中 边 的 数量 ，k; 和 k; 是 指 每 个 顶点 的 degree， 可 以 通过 将 每 一 行 和 每 一 
列 的 项 加 起 来 而 得 到 。 两 者 相 乘 再 除 以 2L 表示 当 该 网 络 是 随机 分 配 的 时 候 ， 顶 点 1 和 j 之 间 
的 预期 边 数 ,整体 而 言 ,括号 中 的 项 表示 该 网 络 的 真实 结构 和 随机 组 合 时 的 预期 结构 之 间 的 差 。 
研究 它 的 值 可 以 发 现 ， 当 Ag-1 H(kk)/2L 很 小 时 ， 其 返回 的 值 最 高 。 这 意味 着 ， 当 在 定点 i 
和 j 之 间 存 在 一 个 “ 非 预 期 ”的 边 时 ， 得 到 的 值 更 高 。 最 后 的 6 ci:、c; 就 是 大 名 易 易 的 克 罗 内 
克 6 函数 (Kronecker-Delta Function) 。 下 面 是 其 Python 解释 。 


def Kronecker Delta(ci, cj): 
if ci = cj: 
return 1 
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else: 
return 0 


Kronecker Delta ("A","A") #returns 1 
Kronecker Delta("A","B") #returns 0 

通过 以 上 公式 可 以 计算 图 的 模块 性 , 且 模块 性 越 高 , 该 网 络 聚 类 成 不 同 团体 的 程度 就 越 好 。 
因此 ， 通 过 最 优化 方法 寻找 最 大 模块 性 就 能 发 现 聚 类 该 网 络 的 最 佳 方法 。 

HEF (Combinatorics) 告诉 我 们 ， 对 于 一 个 仅 有 8 个 项 点 的 网 络 ， 存 在 4140 种 不 同 
的 聚 类 方式 。16 个 项 点 的 网 络 的 聚 类 方式 将 超过 100 亿 种 。32 个 顶点 的 网 络 的 可 能 聚 类 方式 
更 是 将 超过 128 septillion (10°21) 种 。 如 果 你 的 网 络 有 80 个 项 点， 那么 其 可 聚 类 的 方式 的 
数量 已 经 超过 了 可 观测 宇宙 中 的 原子 数量 。 

因此 , 我 们 必须 求助 于 一 种 启发 式 的 方法 , 该 方法 在 评估 可 以 产生 最 高 模块 性 分 数 的 聚 类 
上 效果 良好 ， 而 且 并 不 需要 尝试 每 一 种 可 能 性 。 这 是 一 种 被 称 为 Fast-Greedy 
Modularity-Maximization 〈 快 速 贪 禁 模 块 性 最 大 化 ) 的 算法 ， 这 种 算法 在 一 定 程度 上 类 似 于 前 
面 描述 的 Agglomerative Hierarchical Clustering Algorithm( 集 聚 层 次 聚 类 算法 )。 只 是 Mod-Max 
并 不 根据 距离 〈distance) 来 融合 团体 ， 而 是 根据 模块 性 的 改变 来 对 团体 进行 融合 。 下 面 介绍 
其 工作 方式 。 首 先 初始 分 配 每 个 顶点 到 其 自己 的 团体 ， 然 后 计算 整个 网 络 的 模块 性 M。 


CD 要 求 每 个 团体 对 (community pair) 至 少 被 一 条 单 边 链接 ， 如 果 有 两 个 团体 融合 到 了 
一 起 ， 该 算法 就 计算 由 此 造成 的 模块 性 改变 A M。 

(2) WAM 出 现 了 最 大 增长 的 团体 对 ， 然 后 融合 。 然 后 为 这 个 聚 类 计算 新 的 模块 性 M， 
并 记录 下 来 。 


重复 COD 和 (2) 。 每 次 都 融合 团体 对 ， 这 样 最 后 可 以 得 到 AM 的 最 大 增益 ， 然 后 记录 
新 的 聚 类 模式 及 其 相应 的 模块 性 分 数 M。 当 所 有 的 顶点 都 被 分 组 成 一 个 巨型 聚 类 时 ， 就 可 以 
停止 了 。 然 后 该 算法 会 检查 这 个 过 程 中 的 记录 ， 找 到 其 中 返回 最 高 M 值 的 聚 类 模式 。 这 就 是 
返回 的 团体 结构 。 

团体 检测 是 现在 图 论 中 一 个 热门 的 研究 领域 ， 它 的 局 限 性 主要 体现 在 会 忽略 一 些小 的 集 
AE, 且 只 适用 于 结构 化 的 图 模型 。 但 这 一 类 算法 在 典型 的 结构 化 数据 中 和 现实 网 状 数据 中 都 有 
非常 好 的 性 能 。 








5.9 ”机器 学 习 算法 总 结 


机 器 学 习 领 域 有 一 条 “没有 免费 的 午餐 ”的 定理 。 简 单 解释 一 下 ， 就 是 没有 任何 一 种 算法 
& 够 适用 于 所 有 问题 ， 特 别 是 在 监督 式 学 习 中 。 例 如 ， 你 不 能 说 神经 网 络 就 一 定 比 决策 树 好 ， 
反之 亦 然 。 要 判断 算法 的 优 恤 ,数据 集 的 大 小 和 结构 等 众多 因素 都 至 关 重 要 。 所 以 ， 你 应 该 针 
对 问题 尝试 不 同 的 算法 。 然 后 使 用 保留 的 测试 集 对 性 能 进行 评估 ， 以 选 出 较 好 的 算法 。 
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2017 年 5 月 ， 谷 歌 用 深度 学 习 算法 再 次 引起 了 全 世界 对 人 工 智能 的 关注 。 在 与 谷歌 开发 
的 围棋 程序 的 对 弈 中 , 柯 洁 以 0:3 完 败 。 这 个 胜利 的 背后 是 包括 谷歌 在 内 的 科技 巨头 近年 来 在 
深度 学 习 领 域 的 大 力 投入 。 深度 学 习 近 年 来 取得 了 前 所 未 有 的 突破 , 由 此 掀起 了 人 工 智能 新 一 
轮 的 发 展 热潮 。 深 度 学 习 本 质 上 就 是 用 深度 神经 网 络 处 理 海量 数据 。 深度 神经 网 络 有 卷 积 神经 
网 络 (Convolutional Neural Networks, CNN) 和 循环 神经 网 络 (Recurrent Neural Networks, 
RNN) 两 种 典型 的 结构 。 

神经 网 络 始 于 20 世纪 40 年 代 , 其 构想 来 源 于 对 人 类 大 脑 的 理解 , 它 试 图 模仿 人 类 大 脑 神 
经 元 之 间 的 传递 来 处 理 信 息 。 早 期 的 浅 层 神经 网 络 很 难 刻画 出 数据 之 间 的 复杂 关系 ，20 世纪 
80 年 代 兴 起 的 深度 神经 网 络 又 由 于 各 种 原因 一 直 无 法 对 数据 进行 有 效 训 练 。 直 到 2006 年 ， 
Geottrey Hinton 等 人 给 出 了 训练 深度 神经 网 络 的 新 思路 ,之 后 的 短 短 几 年 时 间 ， 深 度 学 习 颠 覆 
了 语音 识别 、 图 像 识 别 、 文 本 理解 等 众多 领域 的 算法 设计 思路 。 再 加 上 用 于 训练 神经 网 络 的 芯 
片 性 能 得 到 了 极 大 提升 以 及 互联 网 时 代 爆 炸 的 数据 量 , 才 有 了 深度 神经 网 络 在 训练 效果 上 的 极 
大 提升 ， 深 度 学 习 技 术 才 有 如 今 被 大 规模 商业 化 的 可 能 。 


J.T 走 进 深度 学 习 


如 图 7-1 所 示 , 传统 的 机 器 学 习 方式 是 先 把 数据 预 处 理 成 各 种 特征 , 然后 对 特征 进行 分 类 ， 
分 类 的 效果 高 度 取决 于 特征 选取 的 好 坏 , 因此 把 大 部 分 时 间 花 在 寻找 合适 的 特征 上 。 而 深度 学 
习 是 把 大 量 数 据 输入 一 个 非常 复杂 的 模型 , 让 模型 自己 探索 有 意义 的 中 间 表 达 。 深度 学 习 的 优 
势 在 于 让 神经 网 络 自己 学 习 如 何 抓 取 特征 ,因此 可 以 把 它 看 作 一 个 特征 学 习 器 。 值 得 注意 的 是 ， 
深度 学 习 需 要 海量 的 数据 喂养 , 如果 训 练 数据 少 , 深度 学 习 的 性 能 并 不 见得 就 比 传统 的 机 器 学 
习 方法 好 。 


e-— Rh Prid 


特征 提取 








深度 学 习 
特征 提取 + 分 类 
图 7-1 机 器 学 习 和 深度 学 习 的 区 别 
7.1.1 深度 学 习 为 何 崛起 


深度 学 习 并 不 是 新 兴 理论 , 早 在 几 十 年 前 , 深度 学 习 和 神经 网 络 的 基本 理念 就 已 经 比较 完 
备 了 。 关 于 深度 学 习 之 所 以 现在 才 开 始 流行 的 原因 ， 我 们 先 来 看 图 7-2。 


Performance 








cE yaad 
Amount of data Cm) du 
labled 


图 7-2 数据 量 驱动 深度 学 习 发 展 


模型 能 达到 好 的 效果 ， 背 后 是 数据 、 计 算 力 和 算法 在 支持 。 深 度 学 习 之 所 以 最 近 火 起 来 ， 
数据 量 的 增加 、 计 算 力 的 提升 和 算法 的 进步 都 为 之 做 出 了 贡献 。 但 从 图 7-2 可 以 看 出 ， 数 据 量 
的 增加 是 最 主要 的 因素 。 模 型 的 表现 力 随 着 数据 量 的 增加 而 提升 ， 这 是 毋庸 置疑 的 。 但 在 数据 
量 比较 少 的 时 候 ， 神 经 网 络 模型 相 比 传统 的 学 习 算 法 没有 明显 的 优势 ， 只 有 当 训练 集 很 大 时 ， 
神经 网 络 的 效果 才 会 比 传统 算法 更 好 。 所 以 ， 随 着 近 些 年 数据 接触 量 爆 炸 式 增加 ， 深度 学 习 的 
优势 越 来 越 明 显 。 


7.1.2” 从 逻辑 回归 到 浅 层 神经 网 络 


我 们 知道 , 深度 学 习 主要 指 多 层 神 经 网 络 , 让 我 们 先 来 了 解 一 下 什么 是 神经 网 络 。 神 经 网 
络 并 没有 听 起 来 那么 高 深 , 其 本 质 上 也 属于 机 器 学 习 的 一 种 模型 , 就 像 前 几 章 介绍 的 常见 模型 
一 样 。 

还 记得 逻辑 回归 模型 吗 ? 这 是 我 们 在 第 6 章 介绍 过 的 一 种 分 类 器 。 轴 辑 回归 模型 将 输入 变 
量 按 一 定 权重 线性 组 合 求 和 ， 然 后 对 得 到 的 值 施加 一 个 名 为 sigmoid 的 函数 变换 ， 即 gz) = 
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1(1+e^-z)。 这 个 过 程 可 以 用 图 7-3 表示 ， 其 中 xis xo, xs 为 输入 变量 ， 也 是 我 们 数据 集中 的 特 
征 ， 将 它们 线性 组 合 得 到 一 个 数值 ， 再 对 这 个 数值 进行 sigmoid 函数 变换 ， 得 到 yhat， 从 而 可 
以 预测 实际 的 y。 


X1 ~ 


= 


NA =e 


X3 
图 7-3 ”逻辑 回归 模型 
逻辑 回归 模型 本 质 上 是 一 个 浅 层 神 经 网 络 (Shallow Neural Networks) 。 这 里 它 只 有 输入 
层 和 输出 层 。 输 入 层 经 过 线性 组 合 ， 然 后 被 施加 一 个 函数 ， 这 里 把 这 个 函数 叫 作 激活 函数 


(Activation Function) ， 随 后 得 到 输出 层 的 结果 。 我 们 把 它 暂 时 称 为 “简单 结构 ”。 如 果 我 
们 在 输入 层 和 输出 层 之 间 加 入 中 间 层 , 那么 一 个 严格 意义 的 神经 网 络 就 形成 了 , 如 图 7-4 所 示 。 





图 7-4 带 隐藏 层 的 逻辑 回归 模型 


这 个 模型 与 图 7-3 相 比 ， 在 输入 层 和 输出 层 之 间 多 了 一 个 隐藏 层 (Hidden Layer) ， 这 个 
隐藏 层 有 三 个 神经 元 ， 它 们 在 结构 图 中 作为 节点 与 前 一 层 〈 输 入 层 ) 的 节点 Ga, xz x) 通过 
有 向 线段 两 两 相连 。 听 起 来 复杂 ， 如 果 我 们 把 中 间 三 个 神经 元 分 开 来 看 , 每 一 个 神经 元 与 上 一 
层 都 有 如 图 7-5 所 示 的 关系 。 


x ' n m £ 
x2 j 3 x) —D X2 ; RO: 
x3 一 Xy 一 Xs 7 


TS 每 一 个 神经 元 与 上 一 层 的 关系 


这 三 张 图 的 形式 与 逻辑 回归 模型 图 的 形式 完全 相同 。x1!、x2、x3 通 过 一 定 的 权重 比例 线性 
组 合 ， 得 到 一 个 新 的 数 ， 然 后 这 个 新 的 数 被 施加 一 个 激活 函数 ， 得 到 一 个 输出 值 (虽然 图 中 没 
有 表现 出 施加 函数 的 过 程 ， 但 实际 上 是 有 的 ) 。 中 间 层 实际 上 就 是 三 个 “简单 结构 ”并 行 运行 
出 来 的 结果 ,并 将 得 到 的 三 个 结果 存储 在 中 间 层 神经 元 中 ,然后 作为 新 的 输入 变量 传 给 下 一 层 。 
这 里 三 个 “简单 结构 ”并 行 运行 ， 并 不 是 把 一 个 过 程 重复 三 次 。 虽 然 数据 变量 都 是 一 样 的 ， 但 
每 个 结构 中 线性 组 合 的 权重 (也 就 是 参数 ) 是 不 一 定 相同 的 。 因此 ,三 个 神经 元 的 数值 是 不 一 
样 的 。 将 得 到 的 三 个 数值 作为 输入 变量 传递 给 下 一 层 ， 这 个 过 程 如 图 7-6 所 示 。 
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7-6 将 三 个 数值 作为 输入 变量 传递 给 下 一 层 


于 是 在 第 二 层 将 中 间 层 计算 的 结果 当 作 输入 变量 ， 重 新 进行 “线性 组 合 + 激活 函数 ”的 操 
作 ， 最 终 得 到 输出 值 。 这 样 一 个 2 层 的 神经 网 络 的 计算 过 程 就 完成 了 。 





7.1.3 深度 神经 网 络 

神经 网 络 可 以 有 多 个 隐藏 层 ， 当 我 们 使 用 更 多 的 层 数 时 , 实际 上 就 是 在 构造 所 谓 的 深度 神 
经 网 络 。 在 实际 应 用 中 ,我 们 会 使 用 几 十 个 甚至 几 百 个 隐藏 层 。 并 且 事 实证 明 ， 让 网 络 变 得 更 
深层 确实 会 提高 模型 的 准确 率 。 几 百 层 的 结构 的 确 会 比 简单 的 几 层 网 络 表现 得 更 优秀 。 

我 们 再 来 看 深度 神经 网 络 的 结构 。 每 个 隐藏 层 可 以 有 任意 数量 的 神经 元 , 可 以 大 于 、 小 于 
或 等 于 输入 层 变量 个 数 ， 但 一 般 至 少 要 有 2 个 ， 每 层 的 数量 也 可 以 各 不 相等 。 图 7-7 是 一 个 2 
个 隐藏 层 的 神经 网 络 案例 。 在 每 一 层 一 般 使 用 同一 个 激活 函数 ,不同 层 之 间 的 激活 函数 可 以 不 
相同 。 





7-7 带 有 2 个 隐藏 层 的 神经 网 络 


在 介绍 神经 网 络 的 训练 前 , 我 们 要 先 弄 明白 一 件 事 。 前 面 所 提 到 的 神经 网 络 的 层 数 、 每 层 
的 神经 元 节点 数 以 及 每 个 地 方 激活 函数 的 选择 都 是 预先 指定 的 ， 而 不 是 被 训练 的 ， 也 就 是 说 ， 
它们 是 神经 网 络 模型 的 超 参 数 。 

神经 网 络 由 神经 元 、 网 状 结构 和 激活 函数 构成 。 图 7-7 中 的 每 一 个 节点 都 是 一 个 神经 元 ， 
神经 网 络 通过 网 状 结构 将 每 一 层 的 信息 传递 给 下 一 层 。 而 信息 传递 的 方式 正 是 前 文 描述 的 通过 
线性 组 合生 成 新 的 神经 元 的 形式 。 神 经 网 络 看 似 复杂 ， 但 简单 来 说 ， 其 实 只 干 了 三 件 事 : 


(1) 对 输入 变量 施加 线性 组 合 。 
(2) 套用 激活 函数 。 
(3) 重复 前 两 步 。 
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7.414 EBER 


前 文中 反复 提 到 两 个 关键 词 :“ 线 性 组 合 ” 和 “激活 函数 ”, 就 是 神经 网 络 的 两 大 “法 宝 ”。 
很 多 人 喜欢 把 神经 网 络 看 成 一 个 黑匣子 , 认为 从 输入 到 输出 之 间 经 过 了 复杂 的 计算 程序 。 不 过 
看 清 这 个 计算 过 程 之 后 ,其 实 整个 流程 很 简单 ,就 是 不 断 重复 “线性 组 合 ” 和 “激活 ”的 过 程 : 


输入 一 线性 组 合 一 激活 一 线性 组 合 一 激活 一 …… 一 线性 组 合 一 激活 一 输出 


像 这 样 从 输入 端 x1,x2,.…. 到 输出 端 生成 y 的 计算 过 程 叫 作 正 向 传播 (forward propagation). 
上 述 步骤 正 是 正 向 传播 的 步骤 。 在 给 定 各 层 权重 参数 的 情况 下 , 我 们 可 以 通过 正 向 传播 由 已 知 
x， 计 算出 y。 至 此 ， 我 们 知道 了 神经 网 络 是 如 何 从 输入 计算 到 输出 的 。 


7.4.5 激活 函数 


神经 网 络 的 核心 在 于 激活 函数 。 激活 函数 的 存在 使 得 神经 网 络 由 线性 变 为 非 线性 。 如果 不 
使 用 激活 函数 或 者 使 用 线性 激活 函数 都 不 能 达到 这 个 目的 .这 是 因为 线性 组 合 的 线性 组 合 仍然 
是 原 变量 的 线性 组 合 。 激 活 函数 通常 有 ReLU、Sigmoid、Tanh 等 。 读 者 在 没有 具体 的 想法 时 ， 
不 妨 尝试 使 用 以 上 几 种 主流 的 选择 ， 特 别 是 ReLU。 这 个 函数 虽然 简单 ， 但 随 着 时 间 的 推移 ， 
人 们 发 现 这 个 激活 函数 不 仅 会 给 运算 上 带 来 方便 , 效果 在 很 多 实际 问题 中 也 是 最 好 的 。 早 期 一 
些 学 者 的 论文 中 使 用 Sigmoid 以 及 其 他 激活 函数 的 地 方 在 如 今 的 应 用 中 都 被 换 成 了 ReLU。 





7.2 神经 网 络 的 训练 


7.2.1 神经 网 络 的 参数 

要 使 神经 网 络 模型 具有 预测 能 力 ， 我 们 必须 要 让 输入 和 输出 之 间 的 道路 “畅通 ”。 要 达到 
这 一 点 ,我 们 需要 训练 神经 网 络 中 的 参数 。 那么 神经 网 络 的 参数 究竟 有 哪些 呢 ? 读者 可 以 试 着 
想 一 下 ， 图 7-8 中 的 神经 网 络 包含 多 少 个 参数 。 





图 7-8 神经 网 络 实例 
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我 们 知道 神经 网 络 计算 主要 包括 线性 组 合 和 激活 函数 。 激 活 函数 在 模型 训练 之 前 是 定 死 
的 ， 不 存在 参数 。 神 经 网 络 的 所 有 参数 都 集中 在 线性 组 合 器 的 权重 系数 上 。 所 以 ， 这 里 的 参数 


就 是 指 权重 系数 。 





在 这 个 例子 中 ， 第 一 个 隐藏 层 有 4 个 节点 ， 也 就 是 有 4 个 并 行 的 线性 组 合 器 结构 。 对 于 每 
个 线性 组 合 器 ， 因 为 输入 变量 有 3 个 ， 将 它们 线性 组 合 需 要 3+1 =4 个 参数 〈 包 括 常 数 项 ) 。 
因此 ， 这 一 层 一 共 需 要 4X4= 16 个 参数 。 第 二 层 有 3 个 线性 组 合 器 结构 ， 但 此 时 输入 变量 变 
为 4 个 ， 所 以 每 个 组 合 器 需要 4+1=5 个 参数 ， 本 层 一 共 包 含 SX3 = 15 个 参数 。 同 理 ， 可 计算 
出 输出 层 包括 (3+1) x 2= 8 个 参数 。 整 个 神经 网 络 包含 16+ 15 + 8= 39 个 参数 。 


7.2.2 向 量化 


神经 网 络 的 参数 数量 庞大 。 上 述 例子 只 是 一 个 简单 的 3 层 网 络 ， 就 有 39 个 参数 。 在 人 们 
通常 使 用 的 网 络 模型 中 , 拥有 成 千 上 万 的 参数 是 非常 的 。 这 还 是 最 简单 的 普通 网 络 模型 ， 后 文 
要 叙述 的 卷 积 神经 网 络 的 参数 数量 量 级 甚至 可 以 达到 十 万 到 百 万 。 为 了 方便 , 我 们 需要 借助 向 
量 和 矩阵 来 表示 这 些 参数 以 及 中 间 运 算 的 产物 。 这 样 不 仅 表示 起 来 更 加 清晰 简单 ， 编写 代码 时 
也 能 充分 利用 和 矩阵 化 计算 的 优势 ， 省 去 一 些 循环 ， 从 而 使 运算 速度 大 幅 提 升 。 


7.23 ”价值 函数 


要 找到 最 合适 的 参数 ， 首 先 我 们 要 确定 一 个 优化 目标 ， 


也 就 是 要 定义 一 个 价值 函数 (Cost 


Function) 。 价 值 函数 衡量 的 是 模型 预测 值 和 真实 值 之 间 的 偏离 程度 。 我 们 要 设法 让 预测 值 和 


真实 值 之 间 尽 可 能 接近 ， 可 以 按 如 下 方式 定义 价值 函数 。 


首先 ， 价 值 函数 是 所 有 样本 损失 函数 的 琶 加 。 损 失 函 数 (Loss Function) 是 定义 在 一 条 样 
本 数据 上 的 。 为 了 定量 刻画 某 一 条 样本 记录 预测 值 与 真实 值 的 差异 , 在 神经 网 络 中 可 以 使 用 交 


又 焙 来 定义 损失 函数 : 


J(x.y)-L(y. yhat) 


计算 每 一 个 样本 的 损失 函数 ， 然 后 遍历 整个 样本 ， 取 均值 后 即 可 得 到 价值 函数 : 


C(x.y)-l/m * sigma(J(x.y)) 


7.24 ”梯度 下 降 和 反 向 传播 


在 介绍 反 向 传播 前 ,我们 先 来 了 解 梯度 下 降 。 首先， 梯度 下 降 是 一 种 优化 方法 ， 是 用 来 找 


函数 最 优 值 的 一 种 思路 。 


反 向 传播 是 为 了 优化 价值 函数 , 修正 神经 网 络 中 参数 的 过 程 。 反 向 传播 是 神经 网 络 的 核心 
理念 。 简单 来 说 , 我 们 训练 神经 网 络 的 目标 和 所 有 机 器 学 习 模型 一 样 , 是 为 了 找到 模型 的 参数 。 


这 里 用 “找到 ”这 个 词 比 “ 计 算 ” 或 者 “求解 ”更 为 恰当 。 





一 次 次 修正 最 终 得 到 结果 ,这 个 过 程 是 一 步 步 探索 的 过 程 。 





因为 计算 机 是 通过 将 初始 化 的 参数 
BH HAL VKH, BBE 


不 断 朝 着 最 优 的 结果 去 修正 , 从 而 越 来 越 接近 最 优 值 。 这 个 过 程 的 核心 就 是 在 贯彻 梯度 下 降 思 
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想 。 梯 度 下 降 的 目的 是 找到 当前 状态 下 使 得 待 优 化 函数 下 降 最 快 的 点 。 

正 向 传播 的 目标 是 计算 损失 函数 ， 而 反 向 传播 的 目的 是 修正 参数 。 在 实际 应 用 中 ， 通 
常 我 们 会 在 编程 环境 中 记录 价值 函数 值 并 观察 其 变化 。 我 们 会 在 第 10 章 详细 介绍 正 向 / 反 
向 传播 算法 。 


7.3 神 经 网 络 的 优化 和 改进 


7.3.1 神经 网 络 的 优化 策略 


优化 的 目的 是 让 算法 能 更 快 收敛 , 使 得 训练 速度 加 快 。 优 化 是 神经 网 络 建 模 中 极其 重要 的 
环节 ， 它 直接 决定 了 模型 的 训练 时 间 和 投入 产 出 的 性 价 比 。 在 神经 网 络 模型 搭建 中 ,优化 包括 
任何 可 以 使 算法 更 快 收敛 、 模 型 训练 加 快 的 手段 。 下 面 让 我 们 来 看 一 些 常见 的 优化 策略 。 

1. Mini-Batch 

为 了 加 快 训练 速度 ， 我们 先 不 说 算法 ， 首 先 从 读 取 数据 “开刀 ”。 传 统 的 训练 过 程 中 的 一 
个 最 大 痛 点 是 在 漫长 的 迭代 过 程 中 , 每 一 次 都 要 读 入 整个 样本 集 数据 。 样本 量 非常 大 的 时 候 会 
成 为 限制 运算 速度 的 主要 因素 。 为 了 让 一 次 迭代 数据 缩短 , 我 们 是 否 可 以 考虑 在 一 次 迭代 中 仅 
使 用 部 分 样本 数据 ? 答案 是 可 以 的 。Mini-Batch 的 原理 是 分 批 次 读 入 样本 数据 ， 从 而 缩短 一 次 
迭代 的 运算 时 间 。 

为 了 充分 利用 样本 集 ， 我 们 将 样本 随机 分 成 若干 组 (batches) ， 使 得 每 一 组 有 N 个 样本 。 
假设 共有 m 个 样本 ， 那 么 一 共 分 成 mN 个 组 GEN 取 值 不 能 整除 m， 则 进行 取 整 ， 整 除 多 出 
来 的 样本 单独 作为 一 组 ) 。 通 常 N 取 值 为 2 的 整数 次 方 ， 比 如 128、256 等 。 

N 通常 被 称 为 Mini-Batch Size, 属于 超 参 数 之 一 。 假 设 我 们 有 m=2000 条 样本 , Mini-Batch 
Size N =256， 那 么 第 一 次 读 取 的 是 第 1-256 个 样本 〈 样 本 顺序 已 随机 打 乱 ) ， 进 行 一 次 迭代 
( 正 向 传播 和 反 向 传播 ) 后 ， 在 第 二 次 迭代 时 读 取 第 257-512 个 样本 ， 以 此 类 推 …… 第 7 次 
迭代 读 取 第 1537-1792 个 样本 , 第 8 次 迭代 读 取 第 1793-2000 个 样本 (本 次 样本 量 小 于 2560 。 
在 8 次 迭代 后 ， 整 个 样本 进行 了 一 次 遍历 。 我 们 把 到 此 为 止 的 过 程 叫 作 一 个 周期 (epoch》。 
在 此 之 后 重新 开始 下 一 个 周期 ， 整个 样本 集 重新 洗 牌 ， 随机 分 成 8 MA, 然后 重复 类 似 上 一 个 
周期 的 操作 ， 如 此 往复 。 

由 此 可 见 , Mini-Batch 和 常规 算法 的 最 大 区 别 就 是 , 每 次 迭代 时 , 读 取 的 样本 是 不 一 样 的 。 
每 一 次 训练 过 程 是 在 样本 集 的 一 个 随机 子 集 上 进行 的 , 而 不 是 整个 样本 集 。 这 样 一 来 大 大 缩短 
了 一 次 迭代 的 运算 时 间 ， 从 而 使 得 训练 时 间 大 大 缩短 。 

有 的 读者 会 想 , 这 样 做 是 否 会 影响 收敛 的 轨迹 呢 ? 每 次 样本 不 一 样 , 在 整个 训练 过 程 刚 开 
始 的 时 候 , 参数 的 行进 轨迹 的 确 会 显得 不 太 规律 , 但 经 过 一 段 时 间 后 会 步 入 正轨 , 最 终 逐 渐 向 
最 优 值 靠拢 。 通 常 Mini-Batch 只 会 缩短 训练 时 间 ， 不 会 给 训练 带 来 任何 负面 影响 。 所 以 在 实 
际 应 用 中 ， 当 样本 量 很 大 的 时 候 ， 几 乎 总 是 会 用 到 Mini-Batch. 
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2. 输入 数据 标准 化 

了 解 Mini-Batch 之 后 ， 我 们 把 目光 投向 标准 化 。 标 准 化 指 的 是 将 所 有 数据 减 去 其 均值 ， 
再 除 以 标准 差 的 过 程 。 标准 化 后 的 样本 点 在 每 个 维度 上 分 散 程度 更 加 均衡 , 也 就 是 说 每 个 特征 
的 波动 区 间 更 加 接近 。 设 想 一 组 包含 100 个 记录 的 样本 ， 每 个 样本 有 2 个 特征 xi 和 x x 分 
布 在 0-100， 而 x 分 布 在 0~1。 这 种 情况 下 ， 我 们 非常 有 必要 对 数据 进行 标准 化 处 理 的 ， 如 图 





7-9 所 示 。 

X = [xl x2] 

X = X - Xmean 其 中 xmean = 1/m * sigma(X(i)) 
Beg sl 其 中 std^2 = 1/m * sigma(X(i) ^ 2) 








7-9 标准 化 处 理 


经 过 标准 化 处 理 后 , 样本 在 每 一 个 分 量 的 波动 幅度 相当 。 为 什么 要 这 样 做 呢 ? 因为 这 样 一 
来 价值 函数 曲线 将 变 得 更 加 均匀 、 圆 滑 ， 而 不 是 呈 扁 平 状 。 而 后 者 会 导致 参数 的 行进 轨迹 呈现 
“锯齿 形 ”， 最 终 花 更 长 的 时 间 才 能 抵达 最 优点 ， 如 图 7-10 所 示 。 


Unnormalized: —* Normalized: J 


b b 





图 7-10 价值 函数 曲线 


像 图 7-10 左 图 中 出 现 的 情况 就 是 样本 特征 之 间 量 级 相差 太 大 的 结果 。 特 征 之 间 量 级 的 差 
距 直 接 导致 参数 (wb) 在 各 个 维度 之 间 量 级 的 不 均衡 ， 最 终 的 结果 就 是 让 左 图 的 价值 函数 曲 
线 呈 现 扁平 形状 ， 而 价值 函数 曲线 的 切面 (左下 图 ) ， 也 就 是 等 高 线 呈现 椭圆 形 。 在 这 样 一 个 
“扭曲 ”的 椭圆 中 , 每 个 点 的 梯度 方向 和 指向 中 心 的 方向 会 有 很 大 的 偏差 , 所 以 梯度 会 出 现 “ 锯 
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齿 形 ”行进 的 轨迹 。 当 我 们 对 训练 集 的 样本 做 了 标准 化 处 理 后 , 在 验证 集 和 测试 集 上 不 要 忘 了 
对 样本 做 相同 的 处 理 。 
3. Momentum 

Momentum 的 出 发 点 和 标准 化 有 些 类 似 , 也 是 为 了 让 梯度 轨迹 在 迭代 中 能 够 不 走 弯 路 , 不 
过 Momentum 是 从 算法 下 手 去 改进 的 。 梯 度 轨迹 出 现 “ 饥 齿 形 ” 是 学 习 过 程 中 非常 常见 的 情 
况 。 事 实 上 ， 即 使 进行 了 标准 化 处 理 ， 价 值 函 数 曲 线 经 常 不 是 完美 的 “ 圆 形 ”， 图 7-10 右 图 
只 是 非常 理想 化 的 情况 。 一 般 情况 下 ， 梯 度 曲线 都 是 很 难 轻易 地 “径直 ”走向 终点 的 。 

Momentum 的 思想 是 将 过 去 几 次 梯度 进行 平均 作为 当前 的 梯度 。 Momentum 在 物理 学 中 是 
“动量 ”的 意思 ， 实 际 上 这 种 方法 借用 了 物理 学 的 思想 。 动 量 对 应 于 空间 中 的 概念 是 速度 。 我 
们 换个 角度 看 这 个 算法 。Momentum 的 思想 是 ， 与 其 每 一 次 去 试图 修正 “位 移 ”， 不 如 去 修正 
“速度 ”。 


7.3.2 正则 化 方法 


正则 化 的 目的 是 防止 模型 过 拟 合 。 在 神经 网 络 中 ， 通 常 有 LIL2 正则 化 、Dropout 两 种 方 
式 。 


1. L1/L2 正则 化 


这 种 方法 很 简单 ， 和 之 前 在 逻辑 回归 中 介绍 的 技巧 类 似 , 是 在 模型 的 价值 函数 的 基础 上 加 
上 一 个 惩罚 项 。 
J (w,b) 
J (w,b) 

由 于 价值 函数 的 变化 ， 反 向 传播 的 计算 也 会 相应 地 改变 ,但 不 用 担心 ,我们 完全 不 用 推翻 
原来 的 反 向 传播 计算 过 程 ， 只 需要 在 原来 的 基础 上 稍 作 改 变 。 由 于 新 的 J(w,b) 为 两 项 求 和 的 形 
式 ， 在 求 梯度 之 后 仍 为 两 项 求 和 ， 因 此 计算 的 第 一 步 只 需 在 原来 的 基础 上 添加 一 项 ， 即 
lamda/2m * ||wll2.2 对 w 的 导数 。 
dw[1] = …( 原 本 的 式 子 ) + lamda/m * w[1] 
w[1] = w[1] - alpha * dw[l] 

后 续 计 算 与 正常 情况 类 似 。 

2. Dropout 

另 一 种 有 效 的 正则 化 技巧 是 Dropouts Dropout 的 原理 是 在 每 次 迭代 过 程 中 ， 随 机 让 一 部 
分 神经 元 “失效 ”。 这 个 过 程 可 以 这 样 理解 ， 假 设 图 7-11 是 一 个 过 拟 合 的 网 络 ， 现 在 我 们 在 
每 个 神经 元 上 安装 一 个 “开关 ”。 在 每 次 迭代 中 ， 随 机 关闭 其 中 一 部 分 。 每 个 神经 元 被 关闭 的 
概率 都 是 相同 的 ， 等 于 预 设 值 ， 比 如 0.5〈 实 际 上 每 一 层 的 预 设 概率 值 可 以 有 差异 ， 但 通常 被 
设 成 同一 个 值 。 在 实际 操作 中 , 绝 大 多 数 情 况 都 只 设 一 个 通用 的 概率 值 ， 所 以 后 文 假 设 每 一 层 
概率 都 相同 ) 。 














1/m * sigma(L(yhat, y)) + lamda/2m * ||w||2,2 $12 正则 化 
1/m * sigma(L(yhat, y)) + lamda/2m * ||w||2,1 #11 正则 化 
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图 7-11 过 拟 合 的 例子 


结果 在 第 一 批 样本 进来 后 ， 图 7-11 中 标记 的 神经 元 被 关闭 ， 在 这 次 传播 过 程 中 ， 神 经 网 
络 实际 上 变 成 了 图 7-12 的 样子 ， 一 个 被 压缩 的 神经 网 络 。 


Ms 9 Q 
E ven O~ 
ts LIND e 
AAR NG) 
图 7-12 被 压缩 的 神经 网 络 


这 个 缩小 的 网 络 适用 且 仅 适用 于 这 一 批 样本 , 包括 正 向 传播 与 反 向 传播 。 在 这 次 反 向 传播 

后 ， 只 有 这 个 小 网 络 对 应 的 权重 参数 被 修正 。 在 下 一 批 样本 进来 后 ,将 所 有 开关 打开 ,然后 重 

新 执行 随机 关闭 的 过 程 ， 以 此 类 推 。 因此 ， 在 每 次 迭代 中 ,我们 在 使 用 一 个 随机 的 、 缩 小 的 网 
络 在 训练 ， 每 次 训练 模型 都 不 一 样 。 

在 实际 编程 操作 中 ， 每 一 层 的 “开关 ”是 通过 引入 一 个 布尔 向 量 d 叫 实现 的 (维度 与 该 层 
输出 值 a 忠 相 同 ， 每 个 维度 为 0 或 1， 表示 关闭 或 打开 ，〉， 让 d 叫 与 a 山 相 乘 ， 被 关闭 的 神经 元 
的 输出 值 变 为 0， 而 未 关闭 的 神经 元 保留 原来 a 上 的 数值 ， 然 后 将 得 到 的 值 作为 新 的 、 被 修正 
的 a 中 ， 并 当 作 输 入 变量 传递 给 下 一 层 。 

值得 注意 的 是 ， 在 正 向 传播 中 ,每 一 层 神经 元 在 计算 后 通常 要 进行 数值 修正 。 第 1 层 的 激 
活 函 数 计 算得 到 的 数值 a 要 除 以 预 设 值 概率 p， 这 里 的 p 是 指 开 关 为 开启 的 概率 (如 此 定义 
便于 运算 ) 。 比 如 p=0.7， 就 意味 着 每 个 神经 元 被 关闭 的 概率 是 30%， 开 启 的 概率 是 70%。 这 
样 做 是 为 了 保持 a[]] 的 后 续 运 算 单 元 的 期 望 值 不 变 。 因 为 在 Dropout 之 后 ， 神 经 元 减少 ， 传 递 
给 下 一 层 的 被 修正 的 a 岂 的 所 有 维度 中 ， 只 有 期 望 为 pxn[] 的 维度 为 非 空 值 。 为 了 让 z[1+1] 从 
数值 上 期 望 不 变 ,会 在 a 册 进行 dopout 修正 之 后 ,再 进行 一 个 数值 修正 afl] = all] /p; 这 样 z[1+1] 
的 数值 就 不 会 因为 Dropout 而 “ 鞭 缩 ”了 。 这 通常 被 称 为 反 向 失 活 (inverted dropout) 。 

Dropout 只 用 在 训练 过 程 中 ， 一 旦 参数 被 训练 好 后 ， 在 测试 集 计 算 中 不 使 用 Dropout， 也 
就 是 说 要 开启 所 有 神经 元 。 另 外 要 注意 的 是 ， 要 记 住 Dropout 是 一 种 正则 化 方法 ， 只 有 当 模 型 
确实 出 现 过 拟 合 时 才 使 用 ， 和 否则 无 须 使 用 。 
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^ 卷 积 神经 网 络 


7.4.1 卷 积 运算 


卷 积 运算 是 卷 积 神经 网 络 中 的 核心 演算 步骤 。 卷 积 运算 是 将 一 个 矩阵 和 另 一 个 “和 矩阵 乘 子 ” 
通过 特定 规则 计算 出 一 个 新 的 矩阵 的 过 程 。 这 个 “和 拖 阵 乘 子 ” 叫 作 卷 积 核 (Filter) 。 比 如 一 
个 5*5 的 矩阵 和 一 个 3*3 的 卷 积 核 进行 卷 积 ， 可 以 得 到 一 个 3*3 的 窍 阵 ， 如 图 7-13 所 示 。 


B [p p Ji J? | 
5 |2 | je 
2 [o jo Ja fs | 











1 js jo |-2 l-3 | 
2 dlo h [2 4 


743 ” 卷 积 运算 的 例子 一 


卷 积 运算 按照 下 述 方式 进行 : 首先 ， 根 据 卷 积 核 的 规格 ， 对 应 原 矩阵 左上 和 角 的 矩阵 。 在 这 
个 例子 中 ， 是 如 图 7-14 所 示 的 3*3 的 矩阵 。 











图 7-14 对 应 的 矩阵 


将 选中 的 矩阵 和 卷 积 核 矩 阵 “ 相 乘 ”。 这 里 的 乘 指 的 是 对 应 元 素 相 乘 ， 然 后 求 和 ， 将 得 到 
的 数 放 入 矩阵 的 左上 角 ， 如 图 7-15 所 示 。 


37) + 3*] t 0*0 5*2 42*0 * 2* (-1) €2* (2) 2*1 41093912 








图 7-15 矩阵 和 卷 积 核 矩 阵 “ 相 乘 ” 的 结果 


这 样 我 们 就 得 到 了 卷 积 矩阵 中 的 一 个 元 素 。 然 后 将 原 和 矩阵 的 选 定 区 域 平移 , 放 到 如 图 7-16 
所 示 的 位 置 。 
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图 7-16 将 选 定 区 域 平 移 


将 当前 选 定 的 矩阵 与 卷 积 核 矩 阵 对 应 元 素 相 乘 ， 得 到 1， 将 其 填 入 第 2 个 格 中 ， 图 7-17 
所 示 。 





图 7-17 当前 选 定 的 矩阵 与 卷 积 核 矩 阵 对 应 元 素 相 乘 


以 此 类 推 , 第 二 行 第 一 个 方 格 通 过 原 矩 阵 第 2 到 4 行 、 第 1 到 3 列 围 成 的 区 域 与 卷 积 核 相 
乘 得 到 。 第 三 行 第 三 个 方 格 由 原 矩 阵 右 下 角 的 方 阵 与 卷 积 核 相 乘 所 得 。 最 终 即 可 得 到 结果 。 


74.2 ARE 


通过 上 面 的 介绍 , 我 们 知道 了 一 个 方 阵 可 以 和 一 个 卷 积 核 (同样 为 一 个 方 阵 ) 进行 卷 积 运 
算 ， 得 到 一 个 新 的 方 阵 。 假 设 输入 矩阵 为 hxsw h 为 长 度 ，w 为 宽度 ,通常 h 与 w 相等 ) ， 卷 
积 核 为 ff 那么 得 到 的 输出 矩阵 的 长 度 和 宽度 为 h-ftl1 和 w-ft1。 通 常 工 的 值 不 大 ， 一 定 小 于 
h fil w, 3*3. 5*5, 7*7 的 卷 积 核 比 较 常见 。 

这 只 是 卷 积 运算 最 “标准 ”的 情况 。 要 了 解 卷 积 神经 网 络 中 卷 积 运算 的 实际 操作 ,我 们 还 
需要 了 解 Padding 和 Strike 的 概念 。 事 实 上 ， 我 们 可 以 通过 Padding 和 Strike 得 到 尺寸 和 上 述 
计算 不 一 样 的 矩阵 。Padding 和 Strike 也 是 卷 积 运算 中 极为 重要 的 概念 ， 可 以 通过 调节 它们 改 
变 我 们 想 要 的 输出 矩阵 的 格式 。 

@ Padding 

Padding 指 的 是 对 输入 矩阵 的 尺寸 进行 “扩展 ”， 在 矩阵 外 围 增加 一 个 “ 套 环 ”通常 由 
0 来 填充 ) 。 比 如 ， 一 个 3*3 的 矩阵 通过 Padding 得 到 了 一 个 5*5 的 矩阵 。Padding 的 参数 p 
是 在 进行 一 次 卷 积 运算 中 可 以 控制 的 参数 。 通 过 设置 参数 p， 我 们 可 以 控制 输出 层 想 要 得 到 的 
和 矩阵 的 尺寸 。 

e ”从 二 维 到 三 维 

我 们 知道 ， 卷 积 神经 网 络 在 计算 机 视觉 领域 被 广泛 应 用 。 在 图 像 处 理 中 , 我 们 的 输入 数据 
不 止 停留 在 二 维 。 二 维 像素 点 矩阵 只 能 描述 黑白 图 片 , 绝 大 多 数 图 片 为 彩色 , 是 由 3 个 频道 ( 通 
常 为 R、G、B 三 原色 ) 的 像素 点 方 阵 组 成 的 ， 所 以 具有 3 个 维度 。 
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假设 我 们 有 一 个 32*32*3 格式 的 图 片 , 将 这 个 图 片 与 一 个 5*5 的 卷 积 核 进行 卷 积 , 将 可 以 
得 到 一 个 28*28 的 矩阵 。 这 里 输入 数据 中 的 第 三 个 维度 ， 也 就 是 频道 数 ， 在 卷 积 过 程 中 求 和 ， 
所 以 输出 数据 的 第 三 个 维度 为 1， 而 不 是 3。 

卷 积 层 是 卷 积 神经 网 络 的 重要 组 成 部 分 。 卷 积 层 顾名思义 是 对 (上 一 层 的 ) 输入 数据 进行 
卷 积 运算 , 将 得 到 的 结果 传递 给 下 一 层 。 那么 卷 积 层 有 什么 作用 呢 ? 卷 积 运算 的 目的 是 提取 输 
入 的 不 同 特征 ,第 一 层 卷 积 层 可 能 只 能 提取 一 些 低级 的 特征 ， 如 边缘 、 线 条 和 角 等 层级 ， 更 多 
层 的 网 络 能 从 低级 特征 中 迁 代 提取 更 复杂 的 特征 。 卷 积 神经 网 络 由 多 个 上 述 这 样 结构 的 卷 积 层 
组 成 。 除 了 卷 积 层 之 外 ， 还 包括 池 化 Pooling) 层 和 全 连接 (Full Connection) 层 。 

池 化 层 实际 上 是 一 种 形式 的 向 下 采样 。 有 多 种 不 同形 式 的 非 线 性 池 化 函数 , 而 其 中 最 大 池 
化 (Max Pooling) 和 平均 采样 是 最 为 常见 的 。Pooling 层 相当 于 把 一 张 分 辨 率 较 高 的 图 片 转化 
为 分 辩 率 较 低 的 图 片 。Pooling 层 可 进一步 缩小 最 后 全 连接 层 中 节点 的 个 数 ， 从 而 达到 减少 整 
个 神经 网 络 中 参数 的 目的 。 全 连接 层 使 用 与 普通 神经 网 络 一 样 的 连接 方式 ,一 般 都 在 最 后 几 层 。 


7.4.8 CNN 实例 


我 们 的 任务 是 从 几 万 张 带 标签 的 手写 数字 图 片 中 训练 一 个 分 类 器 ,来 正确 识别 图 片 所 写 的 
数字 。 数 据 集 由 阿拉 伯 数 字 0-9 组 成 。 该 数据 集 来 自 经 典 的 手写 体 图 片 数 据 库 MINST， 用 于 
设计 算法 和 模型 ， 被 称 为 计算 机 视觉 领域 的 “Hello World”， 如 图 7-18 所 示 。 








60000000000000000000 
LEY EINE £A 41IH71VY1 
22242AQ2AAAAAZALZ29NA2 
$33333333333333%43333 
u444444u4uuddMéH446 (Q0 
e5555555989$5$55$55565 
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727107220771?7177t*?31T73 
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图 7-18 手写 图 片 库 


这 个 数据 集中 ,每 个 样本 代表 一 个 数字 图 片 ， 图 片 全 部 是 黑白 的 。 在 这 个 案例 中 ,我 们 会 
用 到 CNN 作为 分 类 器 ， 具 体会 用 到 LeNet-5 神经 网 络 结构 。LeNet-5 是 一 种 经 典 的 卷 积 神经 
网 络 结构 ， 由 Yann LeCun 发 明 ， 专 业 用 于 识别 手写 体 和 印刷 体 文字 ， 并 且 表 现 得 十 分 出 色 。 
我 们 以 这 个 任务 为 情景 ， 以 LeNet-5 为 分 类 器 模型 ， 来 介绍 TensorFlow 是 如 何 完成 卷 积 神经 
网 络 的 识别 任务 的 (TensorFlow 会 在 后 面 三 章 中 详细 讲解 ) 。 识 别 过 程 如 图 7-19 所 示 。 
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f. maps 16@5x5 
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图 7-19 识别 过 程 


1. 载 入 和 预 处 理 数据 
首先 打开 Python， 加 载 TensorFlow 和 其 他 需要 的 基本 程序 包 。 


In [1]: import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
import tensorflow as tf 


读 取 数 据 。 我 们 的 数据 源 来 自 Kaggle 竞赛 数据 集 ， 包 括 train 和 test 两 个 CSV 文件 : 


In [2]: train org = pd.read_csv(‘C:\\Users\\Liangyue\Desktop\\train.csv') 
test org = pd.read_csv('C:\\Users\\Liangyue\Desktop\\test.csv") 


和 上 一 个 案例 一 样 , 我 们 先 来 了 解 原 始 数据 集 的 大 致 情况 。 通 过 下 面 几 个 shells 可 以 看 出 : 


© 训练 集 和 测试 集 分 别 包含 42000 和 28000 个 样本 。 


In [4]: 
Out[4]: 


In [5]: 
out[5]: 


In [6]: 
Out[6]: 
In [7]: 


out[7]: 


训练 数据 包括 785 个 变量 ， 其 中 1 个 为 标签 数据 ( 变量 名 为 label) 。 
测试 数据 集 需要 我 们 提交 预测 结果 上 传 到 比赛 网 站 ， 只 有 784 个 变量 ， 没 有 标签 。 
特征 有 784 个 ， 每 一 个 代表 图 片 中 的 一 个 像素 点 。 图 片 由 28*28 个 像素 点 排列 而 成 。 


train_org.shape 


(42000, 785) 


train org.columns 

Index(['label', 'pixeló', ‘pixel1', 'pixel2', 'pixel3', 'pixel4', ‘pixels’, 
'pixel6', 'pixel7', 'pixel8', 
'pixel774', 'pixel775', 'pixel776', 'pixel777', 'pixel778', 'pixel779', 
'pixel780', 'pixel781', 'pixel782', 'pixel783'], 
dtype-'object', length-785) 

test org.shape 


(28000, 784) 


test org.columns 


Index(['pixele', 'pixeli', 'pixel2', 'pixel3', 'pixel4', ‘pixels’, 'pixel6', 
'pixel7', 'pixel8', 'pixelo', 


'pixel774', 'pixel775', 'pixel776', 'pixel777', 'pixel778', 'pixel779', 
'pixel780', 'pixel781', 'pixel782', 'pixel783'], 
dtype-'object', length-784) 


将 标签 数据 分 离 作为 y， 其 余 作 为 特征 集 XX 同时 ， 这 里 将 原先 的 dataframe 数据 格式 转 
换 为 仅 保留 数据 的 矩阵 形式 ， 以 方便 计算 处 理 ): 


In [8]: X train = train_org.drop('label' ,axis=1).values.astype(’float32") 
| train = train org['label'].values.astype('int32') 
X test = test org.values.astype('float32') 


我 们 来 观察 特征 入 的 情况 。 根 据 下 面 几 个 shells 可 以 看 出 : 


e 像素 点 数值 绝 大 多 数 为 0， 这 是 因为 一 张 图 片 除了 中 间 区 域 之 外 都 是 空白 。 
e ”数值 最 小 为 0， 最 大 为 255。 


In [12]: X_train[@:5,:] 


Out[12]: array([[0., 0., @., ... 





.]], dtype=float32) 
In [14]: plt.hist(X train[23,:]) 


Out[14]: (array([562., 12., 10., 9., 5., 17., 12., 13., 4., 140.]), 
array([ 0. , 25.5, 51. , 76.5, 102. , 127.5, 153. , 178.5, 204. , 
229.5, 255. ]), 
«a list of 10 Patch objects») 





0 50 100 150 200 250 


In [16]: print("min is Xd, max is Xd" X(X train[23,:].min(), X train[23,:].max())) 


min is 0, max is 255 


y 的 前 几 个 观测 值 数 据 如 下 ， 分 别 代表 数字 1. 0. 1. 4. 0. 


In [18]: y train[8:5] 


Out[18]: array([1, 6, 1, 4, 8]) 


现在 我 们 将 义 展开 成 28X28 的 形式 。 此 时 ， 可 以 观察 每 个 观测 值 的 样子 ， 通 过 图 片 的 形 
式 呈 现 。Matplotlib 提供 了 将 像素 点 数值 转换 成 图 片 的 接口 : imshow 函数 。 


207 





人 工 智能 与 大 数据 技术 导论 


In [43]: X train = X train.reshape(X train.shape[0],28,28) 
X test - X test.reshape(X test.shape[0],28,28) 


In [44]: X train.shape 
Out[44]: (42000, 28, 28) 


In [49]: plt.imshow(X train[46,:],cmap-'gray') 


Out[49]: «matplotlib.image.AxesImage at 0x23280198780» 





In [56]: y train[46] 


out[56]: 3 


要 使 用 卷 积 神经 网 络 , 我 们 还 需要 进一步 将 X 的 每 一 条 记录 展开 成 28X28X1 的 形式 (图 
片 为 黑白 色 ， 所 以 只 有 1 个 channel) 。 这 时 义 变 成 了 四 维 ( 样 本 数 为 第 一 个 维度 ， 每 一 个 样 
本 是 28X28X 1 的 三 维 数据 ) 。 


In [23]: X train = X train.reshape(X train.shape[0],28,28,1) 
X test = X test.reshape(X test.shape[0],28,28,1) 


In [24]: X train.shape 


Out[24]: (42000, 28, 28, 1) 


然后 对 输入 数据 X 进行 标准 化 处 理 。 这 里 输入 数据 的 数字 全 部 处 于 0-255 之 间 ， 因 此 我 
们 将 其 除 以 255， 使 数字 落 在 0-1 之 间 : 
In [51]: def standardize(x): 
return x/255 
X train = standardize(X train) 
X test - standardize(X test) 
print("min is Xd, max is Xd" X(X train[46,:].min(), X train[46, :].max())) 


min is 0, max is 1 


除了 和 之 外 ， 这 里 还 需要 对 标签 值 Y 进行 处 理 ，Y 的 范围 为 数字 0-9， 属 于 多 分 类 ， 需 
要 对 其 进行 独 热 编 码 Cone-hot encoding) 。 这 是 将 多 类 别 数值 转化 为 0 或 1 数值 的 操作 ,方便 
处 理 。 读 者 可 以 发 现 ， 经 过 这 个 处 理 后 ， 长 度 为 42000 的 向 量 y_train 变 成 了 42000X 10 IAE. 
阵 〈 称 为 大 写 的 Y_train) 。 原 先 y 的 每 个 数值 被 对 应 为 一 个 维度 为 10 的 向 量 。Y 等 于 几 ， 这 
个 向 量 的 第 几 个 维度 就 等 于 1， 其 他 均 为 0。 
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In [52]: from sklearn.preprocessing import label binarize 
Y train - label binarize(y train, classes - [0,1,2,3,4,5,6,7,8,9]) 


In [53]: Y train.shape 


Out[S3]: (42000, 10) 


In [54]: Y train[46] 


Out[54]: array([@, 0, 0, 1, ©, 6, 6, 0, 6, 9]) 


In [55]: Y train[e:5] 


out[55]: array([[8, 1, e, 6, 6, 6, e, 6, 6, e], 
[1, e, e, e, e, e, e, e, e, e], 
[9, 1, e, e, e, e, e, 6, e, e], 
[9, e, e, e, 1, e, e, e, e, e], 
[1, e, e, e, e, e, e, e, e, 9]]) 


2. 构建 graph 


现在 可 以 开始 构建 graph 了 。 这 里 我 们 先 将 构建 graph 需要 的 组 件 以 函数 的 形式 写 出 来 ， 
后 面 组 合 这 些 组 件 ， 只 需 调用 这 些 函 数 即 可 。 这 样 可 以 使 代码 的 结构 清晰 ， 以 方便 后 期 调整 参 
首先 建立 placeholder， 用 来 存储 输入 数据 X 和 Y， 以 及 在 优化 中 会 用 到 的 Dropout 参数 
keep_prob。 这 些 占 位 符 可 以 在 执行 session 时 再 输入 具体 信息 ， 在 后 期 有 调整 的 余地 。 
In [56]: def create placeholders(n HO, n W6, n CO, n y): 
X = tf.placeholder(tf.float32, shape = (None, n HO, n We, n C0)) 
Y = tf.placeholder(tf.float32, shape = (None, n y)) 


keep prob = tf.placeholder(tf.float32) 
return X,Y,keep prob 


LeNet5 模型 的 结构 如 下 : 


LeNet5: input -> conv2d(1) -> ReLU -> maxpool(1) -> ReLU -> 
conv2d(2) -> ReLU -> maxpool(2) -> Flatten -> FC(1) -> ReLU -> 
FC(2) -> ReLU -> FC(3) -> softmax -> output 

input : shape(N, 28, 28, 1) 


conv2d(1) : 28*28*6 INT Z(or5 56) p=2 s=1 
maxpool(1): 14*14*6 f-2 s-2 

conv2d(2) : 10*10*16 N2 (5:5616) p=0 s=1 
Maxpool (2): 5*5*16 f=2 s=2 

Flatten : 400 

FC (1) 5S aem W3: (120,400) 

FC(2) : 84 W4: (84,120) 

OUTPUT : 10 W5: (10,84) 


在 构建 网 络 前 ， 先 初始 化 参数 CLeNetS 中 的 参数 存在 于 两 个 conv2d 层 和 3 个 全 连接 层 ， 
这 里 只 需 初始 化 Wl 和 W2， 全 连接 层 的 参数 会 在 运算 时 自动 被 建立 和 初始 化 ; 另外 ， 偏 置 参 
Bb 也 无 须 初始 化 ) : 
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In [57]: def i 
wa 





根据 上 述 结构 完成 神经 网 络 模型 的 代码 : 


In [58]: def forward propagati. 





(X, parameters, keep prob): 
2d 






ARR DA 

W2 = 3] 

# CONV: s Wl, stride 1, padding 'SAME GRUT TS 
1 = wad. ML. stri ui [1.1.1.1]. padding = "SAE") 

# RELU 


# MAKPOOL: window 2x2, sride ate ng "VALID' ( padding 
^1], strides = i, 9 2,1], padding = "VALID") 
T n 





stri ER 

22 = tf.nn.com midi, we, Se [1,1,1,1], padding = “VALID") 

l, stride 4, VALID 

( pool(A2, ksize = ‘th 2. 2. vi, strides = [1,2,2,1], padding = "VALID") 


~ tec: layers. flatten(P2) 
# FULLY- E layer 
Z3 = tf.contrib.layens.fully connected(2, 120, activation fn = tf.nn.relu) 
73 = tf.nn.dropout (23, kere poe keep_prob) 
LU ee 

tf.contrib. Mea HAY. connec ted(23, 84, activation fn = tf.nr.relu) 
ZA = tom -dropout (Z4, keep prob = keep prob) 
# OUTPUT Loyer 
Z5 = tf.contrib.layens.fully connected(Z4, 10, activation fn = None) 
return 25 


计算 损失 函数 : 


In [59]: def coven cost(25, Y): 
= tf.reduce mean(tf.nn.softmax cross entropy with logits(logits«ZS, labels=V)) 
Exe cost 


了 .5 深度 学 习 的 优势 


在 对 深度 学 习 的 神经 网 络 结构 和 原理 有 大 致 认识 后 ,我 们 来 分 析 一 下 这 个 结构 为 深度 学 习 
带 来 了 什么 优势 。 

深度 学 习 最 大 的 一 个 优势 在 于 ， 它 整合 了 特征 提取 的 过 程 ， 可 以 自动 学 习 数据 集 的 特征 。 
我 们 在 前 文中 提 到 , 特征 工程 是 机 器 学 习 极其 重要 的 一 个 环节 , 需要 我 们 在 使 用 机 器 学 习 模型 
之 前 建立 合适 的 特征 集 。 但 复杂 、 多 层 的 神经 网 络 具有 自主 学 习 原 始 特征 并 进行 特征 工程 的 能 
力 , 这 让 我 们 在 一 定 条 件 下 可 以 省 去 手动 进行 特征 工程 这 一 步骤 , 因为 深度 学 习 模 型 本 身 可 以 
帮 我 们 做 到 。 

这 个 结果 对 我 们 来 说 是 相当 诱 人 的 。 特征 工程 在 人 工 进行 的 情况 下 耗 时 耗 力 , 需要 用 统计 
方法 研究 特征 的 分 布 和 相关 性 等 特点 进行 构建 、 筛 选 、 整 合 和 重组 。 追 求 一 个 好 的 特征 集 能 让 
我 们 的 模型 表现 显著 提升 ,但 完美 的 特征 集 是 可 遇 不 可 求 的 , 因为 特征 集 选 取 的 可 能 性 非常 多 ， 
甚至 是 无 限 的 。 为 了 得 到 一 个 “最 优 ” 的 特征 集 ， 我 们 经 常 要 经 过 特征 选择 一 模型 评估 一 重新 
选择 特征 的 反复 循环 过 程 。 

深度 学 习 之 所 以 能 从 原始 数据 中 学 习 特 征 , 其 背后 的 原理 大 致 可 以 这 样 解释 : 深度 学 习 模 
仿 了 生物 学 神经 元 传递 的 过 程 ， 这 一 过 程 与 人 脑 的 工作 原理 十 分 相似 。 
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第 7 章 深度 学 习 


值得 指出 的 是 , 深度 学 习 并 非 万 能 ， 只 是 为 人 工 智能 选择 合适 的 机 器 学 习 方 法 。 深 度 学 习 
也 有 缺点 ， 绝 不 是 万 能 的 方法 。 比 如 ， 关 于 如 何 进行 深层 神经 网 络 的 内 部 设计 ， 目 前 还 没有 人 
能 够 提出 一 个 明确 的 设计 指南 。 所 以 , 人 类 应 该 发 挥 的 第 一 个 作用 就 是 选择 合适 的 机 器 学 习 方 
法 。 除 了 深度 学 习 之 外 ， 机 器 学 习 的 方法 还 有 很 多 。 对 于 很 多 企业 来 说 ， 与 其 一 下 子 就 尝试 难 
以 驾驭 的 深度 学 习 ， 不 如 引入 现 有 的 机 器 学 习 方 法 更 具 实际 意义 。 


了 OO 深度 学 习 的 实现 框架 


下 面 介绍 深度 学 习 的 常见 框架 。 
€ = TensorFlow 平台 


笔者 最 初 接触 AI 时 , 最 先 听 说 的 框架 就 是 谷歌 的 TensorFlow. TensorFlow 是 一 个 使 用 数 
据 流程 图 进行 数值 计算 的 开源 软件 。 这 个 不 错 的 框架 因 其 架构 而 闻名 , 它 允 许 在 任何 CPU 或 
GPU 上 进行 计算 ， 无 论 是 桌面 、 服 务 器 ， 还 是 移动 设备 。 它 可 在 Python 编程 语言 中 使 用 。 
TensorFlow 的 优点 是 ， 使 用 简单 易学 的 语言 ， 如 Python; 使 用 计算 图 进行 抽象 ， 可 以 使 用 
TensorBoard 获得 可 视 化 。 


€ Caffe 
Caffe 是 一 个 强大 的 深度 学 习 框架 。 它 对 于 深入 学 习 的 研究 而 言 ， 是 非常 快速 和 有 效 的 。 


使 用 Caffe 可 以 轻易 地 构建 一 个 用 于 图 像 分 类 的 卷 积 神经 网 络 。 它 在 GPU 上 运行 良好 ,运行 
速度 非常 快 。 如 图 7-20 所 示 是 Caffe 的 主 类 。 








图 7-20 Caffe 的 主 类 


Caffe 的 优点 是 可 以 与 Python 和 MATLAB 绑 定 使 用 ， 高 性 能 ， 无 须 编写 代码 ， 即 可 训练 
模型 ， 缺 点 是 对 递归 网 络 支持 不 好 。 


€ Keras 


Keras 是 一 个 用 Python 编写 的 开源 神经 网 络 库 。 不 似 TensorFlow, CNTK, Theano 这 种 
端 到 端 (End-to-End) 的 机 器 学 习 框架 ， 相 反 ， 它 是 一 个 接口 ， 提 供 了 高 层次 的 抽象 ， 使 得 神 
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经 网 络 的 配置 变 得 更 加 简单 , 而 不 必 考 虑 所 在 的 框架 。 谷歌 的 TensorFlow 目前 支持 Keras 作 
为 后 端 ， 而 微软 的 CNTK 也 将 在 短 时 间 内 获得 支持 。 

Keras 的 优点 是 对 用 户 友 好 ， 易 于 上 手 ， 高 度 拓 展 ， 可 以 在 CPU 或 GPU 上 无 颖 运行 ， 完 
美 兼容 Theano 和 TensorFlow; 缺点 是 不 能 有 效 地 作为 一 个 独立 的 框架 使 用 。 

€ CNIK 

微软 的 CNTK (计算 网 络 工具 包 ) 是 一 个 用 来 增强 模块 化 和 保持 计算 网 络 分 离 的 库 ， 提 供 
学 习 算法 和 模型 描述 。 在 需要 大 量 服务 器 进行 计算 的 情况 下 ，CNTK 可 以 同时 利用 多 台 服 务 
器 。 据 说 CNTK 在 功能 上 接近 谷歌 的 TensorFlow， 但 速度 比 对 方 要 快 一 些 。 

CNTK 的 优点 是 高 度 灵 活 ， 人 允许 分 布 式 训练 ， 支 持 C. CE. Java 和 Python; 缺点 是 由 
一 种 新 的 语言 一 NDL (网 络 描述 语言 ) 实现 ， 缺 乏 可 视 化 。 
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谷歌 的 TensorFlow 是 一 个 可 用 于 构建 机 器 学 习 模 型 的 平台 ， 是 一 种 基于 图 的 通用 计算 框 
架 。 


8. 1 TensorFlow 工具 包 


TensorFlow.org 上 提供 了 完整 的 API 列表 。 如 图 8-1 所 示 ，TensorFlow 架构 分 为 几 层 ， 底 
层 API 提供 内 核 和 通用 库 ， 最 上 层 是 TensorFlow 社区 添加 的 ， 可 以 让 我 们 轻松 地 使 用 预先 定 
义 好 的 高 级 框架 。 我们 最 频繁 使 用 的 是 TensorFlow Estimator API, 此 API 极 大 地 简化 了 神经 
网 络 模型 的 构建 过 程 。 








8-1 TensorFlow 工具 包 层 次 架构 
表 8-1 总 结 了 TensorFlow 不 同 层 的 用 途 。 
表 8-1 TensorFlow 不 同 层 的 用 途 


[Iaa ——————7—— O O 


x cats = 


面向 对 象 的 高 级 API 


说 明 








TensorFlow 底层 API 
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应 该 尽 可 能 使 用 最 高 层级 的 API。 较 高 级 别 的 API 更 易于 使 用 ， 虽 然 不 如 底层 API 那么 
灵活 。 建 议 先 从 最 高 级 API 入 手 ， 让 所 有 组 件 正常 运作 起 来 。 如 果 你 希望 在 某 些 特定 的 建 模 
方面 更 加 灵活 一 些 ， 则 可 以 选择 下 一 个 级 别 。 每 个 级 别 都 是 使 用 低级 API 构建 的 ， 因 此 降低 
层级 是 没 问题 的 。 

TensorFlow 由 以 下 两 个 组 件 组 成 : 

€ 图 协议 (graph protocol) 缓冲 区 。 

e 执行 (分 布 式 ) 图 的 运行 环境 (runtime) 。 

这 两 个 组 件 类 似 于 Python 代码 和 Python 编译 器 。 正 如 在 多 个 平台 上 实现 了 Python 编译 
器 ， 从 而 可 以 执行 Python 代码 ，TensorFlow 可 以 在 不 同 的 硬件 平台 (TPU、CPU 和 GPU) 上 
运行 图 。 


8.1.1 tf.estimator API 


tfestimator 是 最 常用 的 API。 我 们 可 以 使 用 它 来 完成 机 器 学 习 中 的 大 部 分 任务 。 当 然 , 我 
们 也 可 以 使 用 较 低 层级 (原生 ) 的 TensorFlow API， 但 使 用 t£estimator 会 大 大 减少 代码 量 。 
tfestimator 与 scikit-learn API 兼容 。 正 如 前 面 提 到 的 ，scikit-learn 是 热门 的 开源 机 器 学 习 库 ， 
它 是 基于 Python 的 。 目 前 全 球 有 超过 10 万 名 用 户 在 使 用 scikit-leam。 以 下 是 用 tfestimator 实 
现 的 线性 分 类 程序 〈 伪 代码 ) : 


import tensorflow as tf 


t 设置 一 个 线性 分 类 器 
classifier = tf.estimator.LinearClassifier(feature columns) 


# 使 用 样本 数据 训练 模型 


classifier.train(input fn-train input fn, steps-2000) 
+ 训练 后 ， 可 以 用 作 预 测 了 


predictions = classifier.predict(input fn-predict input fn) 


8.1.2 Pandas 速成 


Pandas 是 Python 的 一 个 开源 数据 分 析 的 库 ， 它 广泛 用 在 TensorFlow 代码 中 。Pandas 提供 
的 数据 结构 Series 和 DataFrame 极 大 地 简化 了 数据 分 析 过 程 中 的 一 些 烦琐 操作 。Series 是 一 维 
数组 ， 比 如 我 们 先 引 入 Pandas API 库 ， 然 后 创建 一 个 Series 对 象 : 


import pandas as pd 
pd.Series(['San Francisco', 'San Jose', 'Sacramento']) 


Series 就 是 一 个 一 维 数组 ， 每 个 数据 对 应 一 个 索引 值 。 上 述 例子 的 索引 值 和 数据 就 是 : 


0 San Francisco 
1 San Jose 
2 Sacramento 


dtype: object 
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DataFrame 是 二 维 数据 结构 ， 即 数据 是 以 行 和 列 的 表格 方式 排列 ， 就 像 数 据 库 中 的 表 
(Table) 。 可 以 将 DataFrame 理解 为 由 一 个 个 Series 组 成 的 ， 每 个 Series 都 有 一 个 名 字 (也 
可 以 看 作 字典 结构 ) ， 比 如 : 
city names = pd.Series(['San Francisco', 'San Jose', 'Sacramento']) 


population = pd.Series([852469, 1015785, 485199]) 


pd.DataFrame(( 'City name': city names, 'Population': population ]) 


结果 如 下 ， 索 引 是 从 0 开始 的 整数 。 可 以 比 作 数 据 库 表 中 的 行 号 。 


City name Population 

0 San Francisco 852469 

1 San Jose 1015785 
2 Sacramento 485199 


我 们 也 可 以 直接 把 一 个 CSV 文件 中 的 数据 导入 数据 帧 中 。CSV 是 一 种 通用 的 、 相 对 简单 
的 文件 格式 , 在 表格 类 型 的 数据 中 用 途 很 广泛 , 很 多 关系 型 数据 库 都 支持 这 种 类 型 文件 的 导入 
SH, Excel 也 能 和 CSV 文件 之 间 转 换 。CSV 是 Comma-Separated Values (逗号 分 隔 值 ) 的 简 
称 ， 有 时 也 称 为 字符 分 隔 值 ， 因 为 分 隔 字符 也 可 以 不 是 逗号 。 其 文件 是 以 纯 文 本 形式 存储 表格 
数据 的 。CSYV 文件 由 任意 数目 的 记录 组 成 ， 记 录 间 以 某 种 换行 符 分 隔 。 每 条 记录 由 字段 组 成 ， 
字段 间 的 分 隔 符 是 其 他 字符 或 字符 串 , 最 常见 的 是 逗号 或 制 表 符 。 下 面 这 个 例子 就 是 把 一 个 包 
含 部 分 加 州 房屋 数据 的 CSV. 文件 装载 到 一 个 数据 帧 对 象 上 : 


california housing dataframe = 

pd.read csv("https://storage.googleapis.com/mledu-datasets/california housing 
train.csv", sep=",") 

california housing dataframe.describe() 


上 面 的 describe0 函 数 用 来 显示 DataFrame 对 象 的 统计 信息 ， 比 如 : 


longitude latitude housing median age total rooms total bedrooms population households median income median house value 

count 17000.000000 17000.000000 17000.000000 17000.000000 —17000.000000 17000.000000 17000.000000 17000.000000 17000.000000 
mean -119.562108 35.625225 28.589353 2643.664412 539.410824 1429.573941 501.221941 3.883578 207300.912353 
std 2.005166 2.137340 12.586937 2179.947071 421.499452 1147.852959 384.520841 1.908157 115983.764387 
min -124.350000 32.540000 1.000000 2.000000 1.000000 3.000000 1.000000 0.499900 14999.000000 
25%  -121.790000 33.930000 18.000000 1462.000000 297.000000 790.000000 282.000000 2.566375 119400.000000 
50% -118.490000 34.250000 29.000000 2127.000000 434.000000 1167.000000 409.000000 3.544600 180400.000000 
75% -118.000000 37.720000 37.000000 3151.250000 648.250000 1721.000000 605.250000 4,767000 265000.000000 
max -114.310000 41.950000 52.000000 37937.000000 6445.000000 35682.000000 6082.000000 15.000100 500001.000000 


该 函数 给 出 了 最 小 值 、 最 大 值 、 平 均值 、 标 准 差 等 值 。 如 果 我 们 只 想 显示 前 面 几 行 数据 ， 
则 可 以 使 用 head0 函 数 。head(n) 返 回 前 n 行 。 若 没 指定 ， 则 要 显示 的 元 素 的 默认 数量 为 5: 


california housing dataframe.head() 


结果 为 : 
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longitude latitude housing median age total rooms total bedrooms population households 


0 -114.31 3419 
1 -114.47 3440 
2 -114.56 33.69 
3 -114.57 33.64 
4 -11457 3357 


15.0 5612.0 
19.0 7650.0 
17.0 720.0 
140 1501.0 
200 14540 


1283.0 
1901.0 
174.0 
337.0 
326.0 


1015.0 
1129.0 
333.0 
515.0 
624.0 


472.0 
463.0 
117.0 
226.0 
262.0 


median income median house value 


1.4936 
1.8200 
1.6509 
3.1917 
1.9250 


66900.0 
80100.0 
85700.0 
73400.0 
655000 


Pandas 有 强大 的 绘图 功能 。 比 如 ， 我 们 可 以 使 用 hist() 方 法 绘制 直方 图 ， 用 于 分 析 某 列 的 


值 的 分 布 。 


california housing dataframe.hist('housing median age') 


82 显示 了 房屋 中 位 价 的 情况 。 


array ([[<matplotlib. axes. _subplots. AxesSubplot object at 0x7fb807cd7910>]], 


dtype=ob ject) 


housing_median_age 





0 » » 


a 


8-2 直方 图 展示 


8.1.3 必要 的 Python 知识 


你 有 两 种 方法 进行 TensorFlow 编 码 。 一 种 是 使 用 谷歌 公司 的 在 线 环境 CColaboratory 平 台 )。 
针对 在 线 环 境 , 我 们 只 需要 编写 代码 和 执行 即 可 , 本 章 中 的 代码 和 结果 都 来 自 谷歌 公司 的 在 线 
开发 环境 。 另 一 种 是 安装 TensorFlow 的 本 地 开发 环境 。 无 论 是 哪 种 环境 ， 对 于 TensorFlow 编 
码 ， 你 都 需要 掌握 一 些 Python AR. ATEREA XY Python 和 TensorFlow 本 地 开发 环境 ， 


然后 对 Python 语法 做 一 些 简 述 ， 以 方便 读者 阅读 本 书 的 代码 。 


1. 本 地 安装 


在 百度 上 搜索 “Anaconda 官网 下 载 ” 打开 下 载 地 址 https://www.anaconda.com/download/, 


如 图 8-3 所 示 。 
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€ > © A | B Mos/vmanronacomomksc) x|*- £€ 
Decumentstion Blog Contact Aneconde Cloud Q 
©) ANACONDA. What Is Anaconds? Products Support Community Resources About 
Easily install 1,000+ dato science Manage packages, dependencies Uncover insights in your data and 
packages and environments with conda create interactive visualizations 





SE windows — & maos Ô Linux 


Anaconda 5.1 For Windows Installer 


Python 3.6 version * Python 2.7 version * 


出 Download 出 Download 





图 8-3 寻找 安装 包 
下 载 后 ， 执 行 EXE 程序 ， 就 可 以 开始 安装 了 ， 如 图 8-4 所 示 。 


© Anaconda3 5.1.0 (64-bit) Setup = 


Welcome to Anaconda3 5.1.0 
(64-bit) Setup 


‘Setup wil gude you through the nstalaton of Anaconda 
5.1.0 (6400). 


tis recommended that you dose all other applications 
before starting Setup. This wil make it possble to update 
relevant system fies without having to reboot your 
‘computer. 


Cik Next to continue. 


ANACONDA 





图 8-4 开始 安装 
单 击 Next 按钮 后 ， 就 正式 进入 了 安装 过 程 ， 如 图 8-5 所 示 。 


O Anaconda3 5.1.0 (64-bit) Setup " 
Oo ANACONDA Péessewatwhie Anaconda? 5.1.0 (64-bit) is beng installed. 


Extract: python-3.6.4-h6536335_1.tar.be2 


a 
[Eee 











图 8-5 安装 中 
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结束 的 界面 如 图 8-6 所 示 。 


Anaconda3 5.1.0 (64-bit) Setup 





Thanks for installing Anaconda3! 








<Back Enh 





2. 安装 TensorFlow 


在 开始 菜单 中 找到 Anaconda, 单 击 Anaconda Prompt 进入 控制 台 ( 见 图 8-7) ,输入 conda 
install tensorflow 下 载 和 安装 TensorFlow， 如 图 8-8 所 示 。 


MI Anaconda Prompt - conda install tensorflow 





图 8-7 Anaconda Prompt 界面 


Mill Anaconda Prompt - conda install tensorflow 





图 8-8 安装 组 件 
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输入 y 来 安装 ， 并 下 载 安装 包 ， 如 图 8-9 所 示 。 


lll Anaconda Prompt - con 








图 8-9 开始 安装 TensorFlow 


最 后 完成 整个 安装 。 输 入 conda list 验证 TensorFlow 已 经 安装 上 了 ， 如 图 8-10 fra. 


MI 管理 员 : Anaconda Prompt 





图 8-10 ”安装 验证 


第 一 个 TensorFlow 程序 


下 面 我 们 来 看 第 一 个 TensorFlow 程序 。“#” 部 分 是 程序 的 注释 , 说 明 该 部 分 程序 的 功能 。 
为 了 方便 读者 查看 中 间 代 码 的 输出 结果 ， 我 们 把 输出 结果 直接 放 在 该 代码 的 后 面 。 
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第 一 个 TensorFlow 代码 的 功能 是 使 用 加 州 1990 年 的 房屋 销售 数据 来 训练 一 个 线性 回 
型 ， 从 而 可 以 预测 房屋 中 位 价 。 
# 装 载 各 类 库 


import math 


8.2.1 





16978 
6506 





from IPython import display 
from matplotlib import cm 
from matplotlib import gridspec 

from matplotlib import pyplot as plt 
import numpy as np 

import pandas as pd 

from sklearn import metrics 
import tensorflow as tf 
from tensorflow.python.data import Dataset 


california housing dataframe 
np.random.permutation (california housing dataframe.index)) 
# 设 置 价格 的 单位 为 千 元 ， 方 便 步 长 的 设置 

california housing dataframe["median house value"] / 
# 展 示 数 据 集 的 部 分 内 容 


california housing dataframe 


结果 如 图 8-11 所 示 。 


longitude latitude housing median age 


-124.2 
-118.3 


390 
380 


18360 
9770 


tf.logging.set verbosity(tf.logging.ERROR) 
pd.options.display.max rows 
pd.options.display.float format = '{:.1f}'.format 


装载 数据 
装载 数据 代码 如 下 
# 装 载 数据 集 


california housing dataframe 
pd.read csv("https://storage.googleapis.com/mledu-datasets/california housing 
train.csv", sep=",") 


# 因 为 要 使 用 随机 梯度 下 降 法 ， 所 以 先 用 reindex () 把 数据 打 乱 ， 免 得 影响 随机 的 效果 


california housing dataframe.reindex( 


3520 
295.0 


883.0 
1073.0 


1000.0 


337.0 
292.0 


17 
1.0 





total rooms total bedrooms population households median income median house value 


705 
864 





6835 -118.3 310 1933.0 4780 1522.0 423.0 16 119.3 

939 -117.1 16.0 2175.0 327.0 1037.0 326.0 52 2014 

3332 -117.9 13.0 1087.0 340.0 817.0 342.0 3.5 262.5 
13804 -122.0 22.0 2038.0 260.0 773.0 281.0 9.2 500.0 
8669 -118.5 41.0 1482.0 239.0 617.0 242.0 8.9 500.0 
14856 -122.2 21.0 7099.0 1106.0 2401.0 1138.0 8.3 358.5 
11507 -121.3 10.0 3371.0 665.0 1823.0 654.0 3.5 116.8 

3906 -118.0 26.0 1787.0 227.0 639.0 224.0 6.8 329.8 
17000 rows x 9 columns 

图 8-11 数据 集 部 分 内 容 
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8.2.2 探索 数据 


在 训练 模型 之 前 ， 对 数据 进行 一 些 探索 性 分 析 。 
# 获 取 数据 集 的 一 些 统计 信息 ， 比 如 行 数 、 最 大 值 、 最 小 值 、 均 值 等 


california housing dataframe.describe() 


结果 如 图 8-12 所 示 。 


longitude latitude housing median age total rooms total bedrooms population households median income median house value 





count — 170000 170000 17000.0 17000.0 17000.0 17000.0 17000.0 17000.0 17000.0 
mean -119.6 35.6 28.6 26437 5394 1429.6 501.2 39 207.3 
std 20 24 12.6 2179.9 421.5 1147.9 3845 19 116.0 
min -124.3 32.5 10 20 10 30 10 05 150 
2596 -121.8 33.9 18.0 1462.0 297.0 790.0 282.0 26 119.4 
50% -118.5 342 290 21270 4340 1167.0 409.0 35 1804 
7596 -118.0 377 37.0 3151.2 648.2 1721.0 605.2 48 265.0 
max -114.3 420 52.0 379370 6445.0 35682.0 6082.0 15.0 500.0 





8-12 ”数据 探索 性 分 析 结 果 


8.2.3 ”训练 模型 


我 们 使 用 TensorFlow Estimator API 的 LinearRegressor 线性 模型 。 这 个 API 完成 模型 的 训 
练 、 评 估 和 预测 。 
# 定 义 输入 特征 : total rooms (各 个 街区 的 房间 数 。 本 例 样本 数据 是 以 街区 为 单位 采集 的 》 


my feature = california housing dataframe[["total rooms"]] 
# 上 面 的 代码 从 california housing dataframe 中 摘出 total rooms 列 数据 。 下 面 打印 来 验证 
# 打 印 结果 就 是 每 个 街区 的 房间 数 ， 是 一 个 一 维 数组 


print (my feature) 


结果 如 图 8-13 所 示 。 


total rooms 


[17000 rows x 1 columns] 





83 ” 列 数据 结果 


在 TensorFlow 中 需 指定 特征 数据 的 类 型 ， 主 要 分 为 2 种 : Categorical 和 Numerical。 


# Categorical 指 文本 数据 ，Numerical 指数 字数 据 
# 在 TensorFlow 中 使 用 feature column 结构 来 指定 特征 的 数据 类 型 (numeric) 


feature columns = [tf.feature column. numeric column ("total rooms")] 
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# 定 义 标签 ， 即 房屋 中 位 价 ， 这 是 我 们 要 预测 的 目标 


targets = california housing dataframe["median house value"] 


# 打 印 标签 数据 
print (targets) 
结果 如 图 8-14 所 示 。 

11312 139.0 
8788 308.3 
9984 101.1 
1067 162.5 
11022 97.4 
3097 327.5 
10017 68. 3 
2746 70. 2 
9227 71.0 
12436 264.7 
Name: median house value, Length: 17000, dtype: float64 








图 8-14 标签 数据 结果 
# 使 用 梯度 下 降 法 来 训练 模型 ， 设 置 梯度 下 降 的 步 长 为 0.0000001 
4 GradientDescentoptimizer 实现 了 小 批量 随机 梯度 下 降 法 
my optimizer-tf.train.GradientDescentOptimizer(learning rate-0.0000001) 
# 下 面 设置 梯度 裁剪 (Gradient Clipping) ， 防 止 梯度 爆炸 问题 


my optimizer = tf.contrib.estimator.clip gradients by norm(my optimizer, 5.0) 


+ 使 用 线性 回归 模型 指定 特征 列 和 优化 器 

linear regressor = tf.estimator.LinearRegressor( 
feature columns-feature columns, 
optimizer-my optimizer 


为 了 让 测试 数据 导入 TensorFlow 的 LinearRegressor， 下 面 我 们 定义 一 个 输入 函数 ， 这 个 
函数 把 Pandas 特征 数据 转换 为 一 个 NumPy 数组 字典 ， 然 后 基于 这 些 数 据 使 用 TensorFlow 的 
Dataset API 来 构建 一 个 数据 集 。 在 输入 函数 中 还 指定 了 在 模型 训练 时 的 批 处 理 大 小 、 是 否 预 
先 打 乱 数据 、 重 复 的 次 数 等 。 最后， 这 个 输入 函数 为 这 个 数据 集 构建 一 个 迭代 ， 并 返回 下 一 批 
的 数据 给 LinearRegressor。 输 入 函数 代码 如 下 : 


def my input fn(features, targets, batch size-1, shuffle-True, num epochs=None): 


""" 训 练 带 一 个 特征 变量 的 线性 回归 模型 . 


参数 : 
features: 特征 ，pandas DataFrame 类 型 
targets: 目标 (4E) , pandas DataFrame 类 型 
batch size: 批 处 理 大 小 ， 即 : 传递 给 模型 的 批 的 大 小 
shuffle: True or False. 是 否 打 乱 数据 
num epochs: 重复 次 数 . None = 无 限 重复 

返回 值 : 
下 一 批 数据 ， 即 : (features, labels) tA 
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# 把 pandas 数据 转换 为 a dict of NumPy 数组 
features = {key:np.array(value) for key,value in dict(features).items()] 
# 从 上 述 数据 构建 一 个 数据 集 
ds = Dataset.from tensor slices((features,targets)) # warning: 2GB limit 
# 设 置 数据 处 理 的 批 处 理 大 小 和 重复 次 数 

ds = ds.batch (batch size) .repeat (num epochs) 


# 是 否 需要 打 乱 数据 ? 如 果 需 要 ， 则 打 乱 
if shuffle: 
ds = ds.shuffle(buffer size-10000) 


# 返 回 下 一 批 数 据 
features, labels = ds.make one shot iterator().get next() 
return features, labels 


下 面 调用 linear regressor 的 train0) 函 数 来 训练 模型 。 训 练 步骤 为 100 步 : 


7 linear regressor.train( 
input fn - lambda:my input fn(my feature, targets), 
steps=100 

















上 面 的 lambda 作为 一 个 表达 式 ， 封 装 了 my input fn()。 
在 上 面 的 例子 中 ， 出 现 了 2 个 超 参 数 。 


€ steps: 训练 迭代 的 个 数 。 每 一 步 计算 一 批 数 据 的 误差 基于 这 个 误差 来 修改 模型 的 权 
重 值 (修改 一 次 ) 。 

€ batch size: 一 步 中 所 使 用 的 样本 数量 ( 样本 的 选择 是 随机 的 ) ， 比 如 SGD 批 处 理 大 
小 为 1。 


简单 来 说 ， 上 述 两 个 数字 的 乘积 是 已 训练 样本 的 总 数 。 


8.2.4 评估 模型 
在 模型 训练 后 ， 我 们 就 可 以 使 用 一 些 数据 来 评估 这 个 模型 。 下 面 定义 一 个 预测 函数 : 
# 创 建 一 个 用 于 预测 的 输入 函数 


prediction input fn =lambda: my input fn(my feature, targets, num epochs=1, 
shuffle-False) 

# 调 用 linear regressor ff] predict () 函数 来 进行 预测 

predictions = linear regressor.predict(input fn-prediction input fn) 

# 把 预测 结果 放 到 一 个 NumPy 数组 中 〈 为 了 后 面 的 误差 分 析 用 ) 

predictions = np.array([item['predictions'][0] for item in predictions]) 

## 计 算 和 打印 均 方 误差 (Mean Squared Error) 和 均 方 根 误 差 (Root Mean Squared Error) 
mean squared error = metrics.mean squared error(predictions, targets) 

root mean squared error - math.sqrt(mean squared error) 

print "Mean Squared Error (on training data): $0.3f" $ mean squared error 


print "Root Mean Squared Error (on training data): $0.3f" $ root mean squared error 
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结果 如 图 8-15 所 示 。 


Mean Squared Error (on training data): 56308.998 
Root Mean Squared Error (on training data): 237.295 


图 8-15 均 方 误差 和 均 方 根 误差 
# 计 算 目标 〈 标 签 ) 的 最 小 值 和 最 大 值 ， 两 者 的 差额 


min house value = california housing dataframe["median house value"].min() 
max house value - california housing dataframe["median house value"].max() 
min max difference = max house value - min house value 

# 打 印 出 来 

print "Min. Median House Value: $0.3f" $ min house value 

print "Max. Median House Value: $0.3f" $ max house value 

print "Difference between Min. and Max.: $0.3f" $ min max difference 
print "Root Mean Squared Error: $0.3f" $ root mean squared error 


结果 如 图 8-16 所 示 。 











Min. Median House Value: 14.999 
Max. Median House Value: 500.001 


Difference between Min. and Max.: 
Root Mean Squared Error: 237.417 





图 8-16 目标 最 大 值 、 最 小 值 及 两 者 的 差额 


从 上 面 的 数据 可 以 看 出 ， 均 方 根 误差 (RMSE) 大 概 在 目标 的 最 小 值 和 最 大 值 之 间 。 能 否 
把 误差 缩小 呢 ? 我 们 首先 来 比较 一 下 模型 的 预测 值 和 目标 值 之 间 的 区 别 


calibration data = pd.DataFrame() 

calibration data["predictions"] = pd.Series (predictions) 
calibration data["targets"] = pd.Series (targets) 
calibration data.describe() 


结果 如 图 8-17 所 示 。 


predictions targets 
17000.0 17000.0 

0.1 207.3 

0.1 116.0 

0.0 15.0 

0.1 119.4 

0.1 180.4 


0.2 265.0 


1.9 500.0 





图 8-17 ”预测 值 与 目标 值 


注意 ， 图 8-17 中 ，predictions 列 的 值 的 单位 是 1000。 所 以 , 均值 (mean) 为 0.1， 相 当 于 
100。 有 了 时候， 图 表 是 一 种 展示 数据 的 更 直接 的 方式 : 
# 随 机 获取 一 些 样本 数据 
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sample = california housing dataframe.sample (n-300) 

# 开 始 画 图 (线性 回归 的 那 条 线 ， 特 征 值 和 目标 值 所 对 应 的 点 ) 

4 获取 total rooms 最 大 /最 小 值 

x 0= sample["total rooms"] .min() 

x 1 = sample["total rooms"].max() 

# 训 练 后 的 最 终 权 重 和 偏差 〈 对 应 线性 回归 上 的 权重 -X 轴 和 偏差 -Y 轴 ) 

weight = 

linear regressor.get variable value('linear/linear model/total rooms/weights') 
[0] 

bias = linear regressor.get variable value('linear/linear model/bias weights") 
# 对 于 total rooms 的 最 小 /最 大 值 ， 获 取 相应 的 预测 值 

y 0 = weight * x 0 + bias 

y 1 = weight * x 1 + bias 

t 画 线 性 回归 线 ， 从 点 (x 0, y 0) 到 点 (x 1, y 1) 

plt.plot(Ix 0, x Y], [y 0, y 1], c=") 

# 标 示 X 和 YY 轴 的 识别 符 

plt.ylabel("median house value") 

plt.xlabel("total rooms") 

+ 标示 样本 数据 ， 每 个 房间 数 、 中 位 价 ， 标 示 一 个 圆 点 
plt.scatter(sample["total rooms"], sample["median house value"]) 
+ 显示 图 形 

pit.show() 


结果 如 图 8-18 所 示 。 
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图 8-18 样本 显示 结果 


上 图 显示 的 线性 回归 线 显 然 有 一 些 问题 , 不 能 很 好 地 预测 房屋 中 位 价 。 下 面 我 们 尝试 优化 
模型 。 





8.2.5 ”优化 模型 
为 了 方便 优化 , 我 们 首先 定义 一 个 模型 训练 函数 。 通 过 变换 函数 的 参数 ， 可 以 看 到 不 同 的 
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效果 。 下 面 这 个 代码 把 整个 执行 过 程 分 成 10 个 平均 分 割 的 期 间 (periods) ， 这 样 就 可 以 让 我 
们 看 到 每 个 期 间 的 模型 优化 情况 。 在 图 上 展示 每 个 时 期 的 误差 ， 从 而 帮助 我 们 判断 是 否 收敛 ， 
或 者 需要 更 多 迭代 。 比 如 ，periods=7 和 steps=70， 那 么 ， 每 10 步 就 会 输出 误差 值 。 值 得 注意 
的 是 ，periods 不 是 超 参 数 〈 而 steps 是 ) ， 所 以 ， 修 改 periods 不 会 影响 模型 训练 本 身 。 


def train model(learning rate, steps, batch size, input feature-"total rooms"): 
"""Trains a linear regression model of one feature. 





Args: 
learning rate: A ^float', the learning rate. 
steps: A non-zero "int', the total number of training steps. A training step 
consists of a forward and backward pass using a single batch. 
batch size: A non-zero `int`, the batch size. 
input feature: A ‘string’ specifying a column from 
"california housing dataframe~ 


to use as input feature. 
"nn 


periods - 10 
steps per period - steps / periods 


my feature - input feature 

my feature data - california housing dataframe[[my feature]] 
my label - "median house value" 

targets - california housing dataframe[my label] 


# 创建 特征 列 


feature columns = [tf.feature column.numeric column (my feature)] 


+ 创建 输入 函数 

training input fn = lambda:my input fn(my feature data, targets, 
batch size-batch size) 

prediction input fn - lambda: my input fn(my feature data, targets, 
num epochs-1, shuffle-False) 


+ 创建 一 个 线性 回归 对 象 
my optimizer = tf.train.GradientDescentOptimizer(learning rate-learning rate) 
my optimizer = tf.contrib.estimator.clip gradients by norm(my optimizer, 5.0) 
linear regressor - tf.estimator.LinearRegressor( 

feature columns-feature columns, 

optimizer-my optimizer 


) 


# 设置 每 个 期 间 (period) BMWA MRA 

plt.figure(figsize-(15, 6)) 

Rit subplotti 25D) 

plt.title("Learned Line by Period") 

plt.ylabel (my label) 

plt.xlabel(my feature) 

sample = california housing dataframe.sample (n-300) 
plt.scatter(sample[my feature], sample[my label]) 

colors = [cm.coolwarm(x) for x in np.linspace(-1, 1, periods)] 


+ 训练 模型 ， 每 个 期 间 展 示 误 差 指标 
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print "Training model..." 
print "RMSE (on training data):" 
root mean squared errors - [] 
for period in range (0, periods): 
# Train the model, starting from the prior state. 
linear regressor.train( 
input fn-training input fn, 
steps-steps per period 


) 

+ 计算 预期 

predictions = linear regressor.predict(input fn-prediction input fn) 
predictions - np.array([item['predictions'][0] for item in predictions]) 


+ 计算 误差 
root mean squared error = math.sqrt( 
metrics.mean squared error(predictions, targets)) 
# Occasionally print the current loss. 
print " period %02d : $0.2f" $ (period, root mean squared error) 
# Add the loss metrics from this period to our list. 
root mean squared errors.append(root mean squared error) 
# Finally, track the weights and biases over time. 
# Apply some math to ensure that the data and line are plotted neatly. 
y extents = np.array([0, sample[my label] .max()]) 


weight = 
linear regressor.get variable value('linear/linear model/%s/weights' % 
input feature) [0] 

bias = 
linear regressor.get variable value('linear/linear model/bias weights') 


x extents = (y extents - bias) / weight 
x extents = np.maximum(np.minimum(x extents, 
sample[my feature] .max()), 
sample[my feature] .min()) 
y extents = weight * x extents + bias 
plt.plot(x extents, y extents, color=colors[period] ) 
print "Model training finished." 


# Output a graph of loss metrics over periods. 
phtesubprot0 2 2) 

plt.ylabel ("RMSE") 

plt.xlabel ('Periods') 

plt.title("Root Mean Squared Error vs. Periods") 
plt.tight layout () 

plt.plot (root mean squared errors) 


# Output a table with calibration data. 

calibration data = pd.DataFrame() 

calibration data["predictions"] = pd.Series (predictions) 
calibration data["targets"] = pd.Series (targets) 
display.display(calibration data.describe()) 


print "Final RMSE (on training data): $0.2f" % root mean squared error 


下 面 训练 一 次 模型 : 
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train model( 
learning rate-0.00001, 
steps=100, 
batch size=1 


相关 数据 如 图 8-19、 图 8-20 所 示 。 


Training model 
RMSE (on training data) 
period 00 32 
period 01 : 
period 02 
period 03 
period 04 
period 05 
period 06 : 
period 07 
period 08 : 
09 








predictions targets 


count 170000 17000.0 


mean 13.2 207.3 
std 10.9 116.0 
min 0.0 15.0 
25% 73 119.4 
50% 10.6 180.4 
75% 15.8 265.0 
max 189.7 500.0 


Final RMSE (on training data): 225.63 





图 8-19 训练 数据 


Learned Line by Period Root Mean Squared Error vs. Periods 





图 8-20 训练 结果 
我 们 更 改 这 些 超 参数 的 值 ， 看 看 误差 是 否 有 改善 : 


train model ( 
learning rate=0.00002, 
steps=500, 
batch size=5 
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相关 数据 如 图 8-21、 图 8-22 所 示 。 


Training model... 

RMSE (on training data): 
period 00 : 225.63 
period 01 : 214.42 
period 02 : 204.04 
period 03 : 194.62 
period 04 : 186.92 
period 05 : 180.00 
period 06 : 175.22 
period 07 : 172.08 
period 08 : 169.33 
period 09 : 167.53 

Model training finished. 





predictions targets 


count 17000.0 17000.0 


mean 1153 . 2073 
std 950 1160 
min 0.1 15.0 
2596 63.7 119.4 
50% 92.7 180.4 
75% 1374 265.0 
max 1654.1 500.0 


Final RMSE (on training data): 167.53 





821 训练 数据 





Learned Line by Period Root Mean Squared Error vs. Periods. 
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图 8-22 训练 结果 


从 上 面 两 个 例子 看 出 ,不 同 的 配置 参数 ， 预 测 的 效果 很 不 一 样 。 至 于 哪些 配置 参数 的 预测 
效果 好 ， 其 实 也 与 数据 集 相 关 ， 多 试 几 次 。 下 面 是 优化 的 一 些 基本 原则 。 
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€ ”训练 误差 应 该 持续 减 小 ,这 个 误差 曲线 开始 时 可 能 比较 陡 , 但 是 最 终 平稳 ( 这 时 训练 
MX). 

e ”如 果 训 练 没有 收敛 ,训练 时 间 可 以 更 长 一 点 。 

如 果 训练 误差 下 降 得 很 慢 ， 可 以 尝试 加 大 步 长 。 但 要 注意 ， 有 时 步 长 过 大 ， 会 有 反作用 。 

@ ”如 果 训 练 误差 上 下 起 伏 很 大 , 可 以 尝试 减少 步 长 . 除了 减少 步 长 外 ,还 要 增加 步 数 和 
批 处 理 大 小 。 

€ ”小 的 批 处 理 有 时 会 不 太 稳 定 。 可 以 先 尝试 00 或 1000， 然 后 逐步 减少 ， 直 到 看 到 降级 。 


有 时 ， 我 们 也 可 以 变换 特征 参数 ， 比 如 : 


train model( 
learning rate-0.00002, 
steps=1000, 
batch size=5, 
input feature="population" 


相关 数据 如 图 8-23、 图 8-24 所 示 。 





Training model... 

RMSE (on training data): 
period 00 : 225.63 
period 01 : 214.62 
period 02 : 204.67 
period 03 : 196.26 
period 04 : 189.39 
period 05 : 184.02 
period 06 : 180.18 
period 07 : 178.01 
period 08 : 176.84 
period 09 : 176.06 

Model training finished. 


predictions targets 


count 17000.0 17000.0 


mean 118.9 207.3 
std 95.5 116.0 
min 0.2 15.0 
2596 657 1194 
50% 97.1 180.4 

75% 143.2 265.0 
max 2968.7 500.0 


Final RMSE (on training data): 176.06 





图 8-23 训练 数据 
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图 8-24 训练 结果 


8.2.6 合成 特征 


合成 特征 synthetic feature) 是 一 种 特征 ， 不 在 输入 特征 之 列 ， 而 是 从 一 个 或 多 个 输入 特 
征 衍 生 而 来 。 在 本 节 中 ， 我 们 需要 修改 一 下 模型 训练 函数 : 


def train model(learning rate, steps, batch size, input feature): 
"""Trains a linear regression model. 


Args: 

learning rate: A ^float', the learning rate. 

steps: A non-zero ‘int*, the total number of training steps. A training step 
consists of a forward and backward pass using a single batch. 

batch size: A non-zero “int*, the batch size. 

input feature: A ^string' specifying a column from 

‘california housing dataframe~ 

to use as input feature. 


Returns: 
A Pandas "DataFrame' containing targets and the corresponding predictions done 


after training the model. 
nnn 


periods - 10 
steps per period - steps / periods 


my feature = input feature 

my feature data = california housing dataframe[[my feature]].astype('float32') 
my label = "median house value" 

targets = california housing dataframe[my label].astype('float32') 


# Create input functions. 
training input fn - lambda: my input fn(my feature data, targets, 
batch size-batch size) 
predict training input fn = lambda: my input fn(my feature data, targets, 
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num epochs-1, shuffle-False) 


# Create feature columns. 
feature columns - [tf.feature column.numeric column (my feature)] 


# Create a linear regressor object. 


my optimizer - tf.train.GradientDescentOptimizer(learning rate-learning rate) 
my optimizer - tf.contrib.estimator.clip gradients by norm(my optimizer, 5.0) 


linear regressor - tf.estimator.LinearRegressor( 
feature columns-feature columns, 
optimizer-my optimizer 


# Set up to plot the state of our model's line each period. 
plt.figure(figsize-(15, 6)) 

plt.subplot(1, 2, 1) 

plt.title("Learned Line by Period") 

plt.ylabel (my label) 

plt.xlabel (my feature) 

sample = california housing dataframe.sample (n=300) 
plt.scatter(sample[my feature], sample[my label]) 

colors = [cm.coolwarm(x) for x in np.linspace(-1, 1, periods)] 


# Train the model, but do so inside a loop so that we can periodically assess 


# loss metrics. 
print "Training model..." 
print "RMSE (on training data) :" 
root mean squared errors = [] 
for period in range (0, periods): 
# Train the model, starting from the prior state. 
linear regressor.train( 
input fn=training input fn, 
steps=steps per period, 
) 


# Take a break and compute predictions. 


predictions = linear regressor.predict (input fn=predict training input fn) 
predictions = np.array([item['predictions'][0] for item in predictions]) 


# Compute loss. 
root mean squared error = math.sqrt( 
metrics.mean squared error (predictions, targets) ) 
# Occasionally print the current loss. 
print " period $02d : $0.2f" $ (period, root mean squared error) 
# Add the loss metrics from this period to our list. 
root mean squared errors.append(root mean squared error) 
# Finally, track the weights and biases over time. 


# Apply some math to ensure that the data and line are plotted neatly. 


y extents - np.array([0, sample[my label].max()]) 


weight = 
linear regressor.get variable value('linear/linear model/$s/weights' % 
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input feature) [0] 
bias = 
linear regressor.get variable value('linear/linear model/bias weights') 


| 


x extents = (y extents - bias) / weight 
x extents = np.maximum(np.minimum(x extents, 
sample[my feature] .max()), 
sample[my feature] .min()) 
y extents = weight * x extents + bias 
plt.plot(x extents, y extents, color=colors[period] ) 
print "Model training finished." 


# Output a graph of loss metrics over periods. 
plt.subplot(1, 2, 2) 

plt.ylabel('RMSE') 

plt.xlabel('Periods') 

plt.title("Root Mean Squared Error vs. Periods") 
plt.tight layout () 

plt.plot(root mean squared errors) 


# Create a table with calibration data. 

calibration data = pd.DataFrame() 

calibration data["predictions"] = pd.Series (predictions) 
calibration data["targets"] = pd.Series (targets) 
display.display (calibration data.describe()) 


print "Final RMSE (on training data): $0.2f" $ root mean squared error 


return calibration data 


对 于 一 个 城市 街区 ， 房 价 可 能 与 total rooms 和 population 两 个 特征 相关 ， 即 人 口 密度 与 
房价 有 关 。 在 下 面 的 代码 中 创建 一 个 合成 特征 : rooms_per_person， 记 录 每 人 所 分 到 的 房间 数 。 
然后 把 这 个 合成 特征 作为 模型 训练 函数 的 输入 特征 。 其 代码 如 下 


california housing dataframe["rooms per person"] = ( 
california housing dataframe["total rooms"] / 
california housing dataframe["population"]) 


calibration data - train model( 
learning rate-0.05, 
steps=500, 
batch size=5, 
input_feature="rooms_per_person") 


相关 数据 如 图 8-25、 图 8-26 所 示 。 
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Training model... 

IRMSE (on training data): 
period 00 : 213.66 
period 01 : 191.32 
period 02 : 171.10 
period 03 : 153.37 
period 04 : 141.15 
period 05 : 133.91 
period 06 : 130.99 
period 07 : 130.91 
period 08 : 131.63 
period 09 : 132.81 

Model training finished. 


predictions targets 


count 17000.0 17000.0 


mean 202.1 207.3 
std 92.8 116.0 
min 46.2 15.0 
25% 165.6 119.4 
50% 198.9 180.4 
75% 227.2 265.0 
max 4428.9 500.0 


Final RMSE (on training data): 132.81 





825 训练 数据 


Learned Line by Period Root Mean Squared Error vs. Periods. 





some per person Penoas 


图 8-26 训练 结果 


8.2.7 ” 离 群 值 处 理 


正如 4.3.2 节 中 所 阐述 的 ， 数 据 集 总 会 有 一 些 离 群 值 (outlier) 。 执 行 下 面 的 代码 来 查看 
一 下 这 些 离 群 值 。 下 面 的 代码 是 用 直方 图 画 出 rooms per person 特征 值 (如 图 8-27 所 示 ) 。 
plt.subplot(1, 2, 2) 


_ = california housing dataframe["rooms per person"].hist() 
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8-27 rooms per person 特征 值 


MERAH, KE% rooms per person 是 小 于 5 的 。 对 于 超过 5 的 数据 ， 修 前 〈clip) 为 
5， 代 码 如 下 : 


california housing dataframe["rooms per person"] = ( 
california housing dataframe["rooms per person"]).apply(lambda x: min(x, 5)) 


# 显 示 直方 图 


. = california housing dataframe["rooms per person"].hist() 


结果 如 图 8-28 所 示 。 





0 1 2 3 4 5 
图 8-28 rooms per person 特征 值 
下 面 我 们 再 次 训练 数据 : 


calibration data = train model( 
learning rate-0.05, 


235 


人 工 智能 与 大 数据 技术 导论 


steps=500, 
batch size=5, 
input feature="rooms per person") 


相关 数据 如 图 8-29、 图 8-30 所 示 。 
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Training model... 
RMSE (on training data): 


Learned Line by Period 





period 00 : 212.81 
period 01 : 189.04 
period 02 : 167.04 
period 03 : 147.44 
period 04 : 131.69 
period 05 : 118.80 
period 06 : 112.42 
period 07 : 109.28 
period 08 : 108.53 
period 09 : 108.10 
Model training finished. 
predictions targets 
count 17000.0 17000.0 
mean 197.8 207.3 
std 52.5 116.0 
min 43.9 15.0 
25% 164.3 119.4 
50% 197.8 180.4 
75% 226.3 265.0 
max 442.6 500.0 
Final RMSE (on training data): 
图 8-29 训练 数据 
EI 
m 
1 wo 
m 
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图 8-30 训练 结果 
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Root Mean Squared Error vs. Periods. 


5.23 过 拟 合 处 理 


我 们 在 第 5 章 中 讲 到 了 一 个 过 拟 合 的 例子 。 在 如 图 8-31 所 示 的 分 类 问题 中 ， 我 们 的 目标 
是 找到 一 个 分 类 器 ， 分 割 两 种 标签 的 数据 。 用 肉眼 不 难看 出 ， 蓝 色 标 签 的 点 (圆圈) 集中 在 图 
的 右上 区 域 ， 中 间 的 图 是 最 为 合适 的 分 类 器 。 左 图 用 一 条 直线 分 割 平面 ， 模 型 过 于 简单 ， 对 直 
线 右 侧 的 红色 标签 数据 (又 又 ) 刻画 较 差 ， 属 于 欠 拟 合 ; 而 右 图 则 用 了 比较 复杂 的 模型 ， 把 样 
本 集 的 数据 全 部 照顾 到 ， 属 于 过 拟 合 。 
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图 8-31 过 拟 合 的 例子 一 


虽然 所 有 训练 样本 在 图 8-31 右 图 上 都 已 完全 正确 分 类 ， 但 是 这 时 候 会 有 过 拟 合 的 问题 。 
问题 就 是 ， 如 果 加 入 新 的 样本 , 会 怎么 样 ? 最 终 可 能 会 遇 到 一 些 新 样本 ， 对 于 这 些 样本 ， 模 型 
无 法 很 好 地 进行 预测 。 从 某 种 意义 上 讲 ， 这 个 模型 最 初 可 能 过 拟 合 了 训练 数据 ， 而 无 法 很 好 地 
对 之 前 未 出 现 的 新 数据 进行 分 类 。 所 以 ， 如 果 模 型 过 于 复杂 ， 那 么 过 拟 合 真 的 会 成 为 问题 。 我 
们 再 来 看 一 个 例子 ， 如 图 8-32 所 示 。 








图 8-32 过 拟 合 的 例子 二 


左 图 上 有 蓝 色 (集中 在 右上 ) 和 黄色 (集中 在 左下 ) 两 种 点 。 这 可 能 代表 两 个 类 别 ， 比 如 
健康 和 不 健康 。 中 图 是 某 一 种 模型 ， 看 上 去 误差 很 小 ， 虽然 这 个 模型 有 点 复杂 , 但 是 在 中 图 上 
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有 效 地 区 分 了 这 两 类 点 。 右 图 上 加 入 了 更 多 的 测试 数据 , RTEA, 这 个 模型 对 不 少 新 数据 的 
分 类 是 错误 的 。 对 于 这 个 模型 ,我 们 认为 它 过 拟 合 了 。 这 个 过 拟 合 模型 在 训练 时 的 误差 小 , 但 
是 在 预测 新 数据 时 误差 大 。 


8.3.1 训练 集 和 测试 集 


如 何 才能 确保 在 实践 中 模型 不 会 过 拟 合 呢 ? 在 理想 情况 下 ,我 们 希望 能 够 对 数据 样本 进行 
训练 ， 然 后 知道 这 个 模型 会 很 好 地 预测 新 样本 。 简 单 来 说 ， 一 个 好 的 模型 应 尽 可 能 简单 。 这 个 
称 为 “ 泛 化 〈generalization) 理论 ”。 过 拟 合 往往 是 模型 太 复杂 造成 的 。 一 个 基本 原则 是 拟 合 
数据 刚刚 好 ,而 且 尽量 简单 。 在 机 器 学 习 中 , 我 们 利用 的 是 经 验 。 我 们 的 策略 是 ,使 用 测试 集 。 
我 们 从 整个 数据 集中 抽取 一 批 数据 ， 对 这 些 数据 进行 训练 ， 这 就 是 训练 集 (training set) 。 我 
们 再 从 同一 个 数据 集中 另外 抽取 一 批 数据 , 称 为 测试 集 (test set) ， 如 果 测 试 集 的 预测 效果 好 ， 
即 预 测 测试 集 和 预测 训练 集 的 效果 一 样 好 , 我 们 就 可 以 满意 地 确定 , 模型 可 以 很 好 地 泛 化 到 未 
来 的 新 数据 。 在 这 里 ， 要 注意 以 下 事项 〈 这 也 是 机 器 学 习 的 一 些 细则 ) : 


€ 我们 要 以 独立 且 一 致 (independently and identically ) 的 方式 从 整个 数据 集 抽 取样 本 ， 
不 以 任何 方式 主动 产生 偏差 。 训练 集 和 测试 集 应 该 是 随机 抽取 的 , 而 不 是 相同 的 数据 
子 集 。 同 时 测试 集 要 足够 大 。 

© 整个 数据 集 是 平稳 的 ( stationary ) ， 不 会 随时 间 发 生变 化 。 

e ”训练 集 和 测试 集 始终 从 同一 个 数据 集中 提取 样本 ， 在 当中 不 会 从 其 他 数据 集中 提取 样本 。 


以 上 是 一 些 非常 关键 的 假设 , 我 们 在 监督 式 机 器 学 习 中 , 所 做 的 许多 工作 都 是 以 这 些 假 设 
为 基础 的 。 但 是 在 实践 中 ,有 时 会 违反 这 些 假设 。 比 如 , 我 们 有 时 可 能 会 违反 平稳 性 假设 ， 例 
如 用 户 的 购物 行为 在 节假日 或 夏季 是 不 同 的 。 如 果 我 们 只 是 用 节假日 数据 建立 了 模型 , 那么 该 
模型 可 能 对 夏季 数据 是 不 准 的 。 因此 ,我们 必须 密切 关注 各 项 指标 ， 在 违反 上 述 假设 时 ,就 能 
立即 知晓 。 

如 果 只 有 一 个 数据 集 ， 该 怎么 办 ? 我 们 可 以 将 这 个 大 型 数据 集 分 成 两 个 小 数据 集 一 个 
用 于 训练 ; 另 一 个 用 于 测试 。 测试 集 数据 要 能 够 代表 整个 数据 集 ， 训练 集 和 测试 集 具 有 相同 的 
特性 ， 如 图 8-33 所 示 。 


Training Set Test Set 
图 8-33 ”训练 集 与 测试 集 
这 两 个 数据 集 需要 相互 独立 。 我 们 可 能 需要 先进 行 随机 化 , 再 拆 分 数据 。 这样 才能 避免 发 
生 诸 如 意外 将 全 部 节假日 数据 归 入 训练 数据 集 ,而 将 全 部 夏季 数据 归 入 测试 数据 集 之 类 的 糟糕 
情况 。 那 么 我 们 该 怎么 拆 分 一 个 数据 集 呢 ? 有 两 点 需要 注意 : 
@ “训练 集 规 模 越 大 ， 模 型 的 学 习 效果 就 越 好 。 
@ ”测试 集 规模 越 大 ， 我 们 对 于 评估 指标 的 信心 越 充足 ， 置 信 区 间 就 越 窄 。 
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如 果 数 据 集 规模 非常 大 ， 这 是 好 事 。 如 果 我 们 有 十 亿 样 本 ， 可 以 使 用 其 中 的 10%~15% 进 
行 测试 ， 置 信 区 间 (confidence intervals) 依然 会 很 窄 。 如 果 数 据 集 规模 很 小 ， 我 们 可 能 需要 
执行 诸如 交叉 验证 之 类 较为 复杂 的 操作 。 一 个 典型 的 错误 是 ， 测 试 集 中 的 数据 也 在 训练 集中 ， 
即 对 测试 数据 进行 训练 。 这 会 让 你 发 现 测试 数据 的 准确 率 达 到 100%。 这 时 ， 请 反复 检查 自己 
有 没有 意外 地 对 测试 数据 进行 了 训练 。 一 个 原因 可 能 是 整个 数据 集中 有 重复 的 数据 , 这 些 重复 
的 数据 分 别 分 到 了 测试 集 和 训练 集 。 这 样 就 是 在 一 些 测试 数据 上 训练 , 当 使 用 测试 集 测试 模型 
时 ， 就 无 法 正确 评估 模型 了 。 





8.82 ”验证 集 


8.3.1 节 阐 述 了 测试 集 和 训练 集 的 用 法 。 我 们 用 训练 数据 训练 一 种 模型 ， 然 后 使 用 测试 数 
据 对 模型 进行 测试 并 观察 其 指标 。 如 图 8-34 所 示 ， 如 果 把 训练 和 测试 做 成 迭代 ， 每 次 迭代 调 
整 一 些 设置 ， 比 如 步 长 〈 或 学 习 速率 ) ， 然 后 重新 尝试 前 面 的 操作 《〈 训 练 和 测试 ) ， 看 看 能 
提高 测试 集 的 准确 率 。 我 们 可 能 会 添加 一 些 特征 ， 也 可 能 会 去 除 一 些 特征 ， 并 继续 欠 代 ,直到 
根据 测试 集 指 标 找 出 最 佳 模型 为 止 。 这 样 有 问题 吗 ? 有 的 , 那 就 是 针对 测试 数据 的 特性 进行 了 
过 拟 合 。 





Tweak model according 
to results oi 


"m pen 


Pick model that does bes 
on fést'Set 


图 8-34 和 迭代 过 程 


如 图 8-35 所 示 ， 我 们 可 以 使 用 另 一 种 方法 来 解决 这 个 问题 : 除了 训练 集 和 测试 集 外 ， 分 
出 一 些 数据 来 创建 第 三 个 数据 集 ， 即 验证 集 。 








Training Set Validation Set Test Set 
图 8-35 训练 集 、 测 试 集 与 验证 集 


如 图 8-36 所 示 ， 我 们 使 用 一 种 增幅 小 的 新 迭代 方法 对 训练 数据 进行 迭代 训练 ， 然 后 仅 基 
于 验证 数据 进行 评估 。 始 终 将 测试 数据 搁置 一 旁 ， 完 全 不 使 用 测试 数据 。 我 们 将 不 断 迭 代 、 调 
整 各 种 参数 或 对 模型 进行 任何 更 改 , 直到 根据 验证 数据 得 出 比较 理想 的 结果 。 只 有 这 时 ,我 们 
才 会 拿 测试 数据 测试 模型 。 我 们 要 确保 测试 数据 集 得 出 的 结果 符合 验证 数据 集 得 出 的 结果 。 如 
果 不 符合 ， 那 么 我 们 可 能 对 验证 集 进 行 了 过 拟 合 。 
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3 过 拟 合 实例 
在 这 个 例子 中 , 我 们 使 用 多 个 特征 变量 来 提升 模型 的 效率 , 并 使 用 测试 集 来 检查 模型 是 否 


过 拟 合 验 证 数据 。 


import math 

from IPython import display 

from matplotlib import cm 

from matplotlib import gridspec 

from matplotlib import pyplot as plt 

import numpy as np 

import pandas as pd 

from sklearn import metrics 

import tensorflow as tf 

from tensorflow.python.data import Dataset 
tf.logging.set verbosity(tf.logging.ERROR) 
pd.options.display.max rows = 10 
pd.options.display.float format = '{:.1f}'.format 
# 装载 数据 

california housing dataframe = 

pd.read csv("https://storage.googleapis.com/mledu-datasets/california housing 
train.csv", sep-",") 


# california housing dataframe = california housing dataframe.reindex( 


# 


np.random.permutation(california housing dataframe.index)) 


* 预 处 理 多 种 特征 数据 


def 


preprocess features(california housing dataframe): 


"""Prepares input features from California housing data set. 


Args: 


california housing dataframe: A Pandas DataFrame expected to contain data 
from the California housing data set. 


Returns: 


A DataFrame that contains the features to be used for the model, including 
synthetic features. 


selected features — california housing dataframe[ 
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["latitude", 
"longitude", 
"housing median age", 
"total rooms", 
"total bedrooms", 
"population", 
"households", 
"median income"]] 
processed features = selected features.copy() 
# Create a synthetic feature. 
processed features["rooms per person"] - ( 
california housing dataframe["total rooms"] / 
california housing dataframe["population"]) 
return processed features 


def preprocess targets(california housing dataframe): 
"""Prepares target features (i.e., labels) from California housing data set. 





Args: 
california housing dataframe: A Pandas DataFrame expected to contain data 
from the California housing data set. 
Returns: 


A DataFrame that contains the target feature. 
n 





output targets = pd.DataFrame () 
# Scale the target to be in units of thousands of dollars. 
output targets ["median house value"] = ( 

california housing dataframe["median house value"] / 1000.0) 
return output targets 


下 面 创 建 训 练 集 和 验证 集 。 整 个 数据 集 为 17000 个 样本 。 训 练 集 来 自 数据 集 的 前 面 12000 
个 样本 ， 而 验证 集 来 自 数据 集 的 后 面 5000 个 样本 。 
training examples = 


preprocess features(california housing dataframe.head(12000)) 
training examples.describe() 


训练 集 如 图 8-37 所 示 。 











latitude longitude housing median age total rooms total bedrooms population households median income rooms per person 

count 120000 12000.0 12000.0 12000.0 12000.0 12000.0 12000.0 12000.0 12000.0 
mean 346 -118.5 275 2655.7 547.1 1476.0 505.4 3.8 19 
std 16 12 12.1 2258.1 4343 11743 391.7 19 13 

min 32.5 -1214 10 20 20 30 20 0.5 0.0 

2596 338 -118.9 17.0 1451.8 299.0 815.0 283.0 25 14 
5096 340 -118.2 28.0 2113.5 438.0 1207.0 411.0 35 1.9 
75% 344 -117.8 360 3146.0 6530 1777.0 606.0 46 23 
max 418 -114.3 52.0 37937.0 5471.0 35682.0 5189.0 15.0 55.2 

图 8-37 训练 集 
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training targets = preprocess targets(california housing dataframe.head(12000)) 
training targets.describe() 


训练 集 样 本 数据 如 图 8-38 所 示 。 


median house value 


12000.0 
198.0 
1119 

150 
117.1 
170.5 





图 8-38 训练 集 样本 数据 


validation examples = 
preprocess features(california housing dataframe.tail(5000)) 
validation examples.describe() 


验证 集 如 图 8-39 所 示 。 


latitude longitude housing median age total rooms total bedrooms population households median income rooms per person 

count — 5000.0 5000.0 5000.0 5000.0 5000.0 5000.0 5000.0 5000.0 5000.0 
mean 381 -1222 313 26148 521.1 1318.1 491.2 44 24 
0.9 05 134 1979.6 388.5 1073.7 366.5 2.0 0.6 

36.1 -124.3 10 8.0 1.0 80 10 0.5 0.1 

375 -1224 1481.0 2920 7310 2780 27 17 

37.8 -122.1 2164.0 424.0 1074.0 403.0 37 21 

384 -1219 3161.2 6350 15902 603.0 541 24 

420 -1214 32627.0 6445.0 28566.0 6082.0 150 18.3 





839 WER 
从 上 面 的 结果 看 出 ， 我 们 有 9 个 可 用 的 输入 特征 变量 。 


alidation targets = preprocess targets(california housing dataframe.tail(5000)) 
validation targets.describe() 


验证 集 数据 如 图 8-40 所 示 。 


median house value 
5000.0 

229.5 

1225 

15.0 

130.4 

213.0 

303.2 


500.0 





8-40 ”验证 集 数据 
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在 上 面 9 个 输入 特征 变量 中 ， 有 两 个 关于 房屋 街区 的 地 理 坐 标 : Latitude 和 Longitude。 如 
果 按 照 经 纬度 来 画 点 ， 那 么 应 该 组 合成 一 个 加 州 地 图 。 然 后 使 用 不 同 颜色 标示 房屋 中 位 价 〈 红 
色 为 高 价 区 ) 。 其 代码 如 下 : 


plt.figure(figsize=(13, 8)) 


ax = plt.subplot(1, 2, 1) 
ax.set title("Validation Data") 


ax.set autoscaley on(False) 

ax.set ylim([32, 43]) 

ax.set autoscalex on(False) 

ax.set xlim([-126, -112]) 

plt.scatter(validation examples["longitude"], 
validation examples ["latitude"], 
cmap-"coolwarm", 
c-validation targets["median house value"] / 

validation targets["median house value"].max()) 


ax = plt.subplot(1,2,2) 
ax.set title("Training Data") 


ax.set autoscaley on(False) 
ax.set ylim([32, 43]) 
ax.set autoscalex on(False) 
ax.set xlim([-126, -112]) 
plt.scatter(training examples ["longitude"], 
training examples["latitude"], 
cmap-"coolwarm", 
c=training targets["median house value"] / 
training targets["median house value"].max()) 
_ = plt.plot() 


结果 如 图 8-41 所 示 。 我 们 发 现 ， 训 练 数 据 的 图 形 看 上 去 像 个 加 州 地 图 〈 这 是 1990 年 的 房 
屋 销售 价格 数据 ， 当 年 洛杉矶 附近 和 旧金山 比较 高 ,硅谷 还 没 起 来 ) ， 但 是 验证 数据 的 图 形 不 
太 像 。 所 以 ， 验 证 数据 有 一 些 问题 。 也 就 是 说 ,在 把 整个 数据 集 分 割 为 训练 数据 子 集 和 验证 数 
据 子 集 时 出 现 了 一 些 问题 ， 数 据 分 布 得 不 均匀 。 一 般 而 言 ， 机 器 学 习 中 的 调试 主要 是 数据 的 调 
试 ， 而 不 是 代码 的 调试 。 如 果 数据 有 问题 ， 那 么 ， 再 先进 的 机 器 学 习 也 没 用 。 
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Validation Data Training Data 





E] E] 
æ B 
* * 
» *» 
2 2 
126 — -124 — -122 -0 -ns -n6 -4 -12 -06 -24 12 0 -1 -le -14 -112 


图 8-41 图 示 数 据 


解决 数据 不 均匀 的 方法 就 是 在 创建 训练 集 和 验证 集 之 前 ， 先 把 数据 打 乱 (数据 预 处 理 阶 
段 ) 。 这 就 防止 了 源 数 据 集 可 能 有 序 排列 而 造成 的 问题 。 把 上 述 代 码 中 的 这 两 行 注释 去 掉 ， 然 


后 依次 运行 代码 。 
# california housing dataframe = california housing dataframe.reindex( 
+ np.random.permutation(california housing dataframe.index)) 
最 后 结果 如 图 8-42 所 示 。 验 证 数据 也 看 上 去 像 个 加 州 地 图 了 。 数 据 预 处 理 和 数据 集 分 割 
看 上 去 合理 了 。 
Validation Data. Training Data. 
2 2 





-125 -1234 -2 -0 -u8 -u6 -14 -112 a2 -24  -122 -20 -8 -6 -04 -12 


图 8-42 reindex 之 后 的 数据 图 
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下 面 我 们 使 用 所 有 特征 变量 来 训练 线性 回归 模型 。 输 入 函数 如 下 ， 把 数据 集 的 数据 导入 
TensorFlow 模型 中 。 


def my input fn(features, targets, batch size-1, shuffle-True, num epochs=None): 
"""Trains a linear regression model of multiple features. 


Args: 
features: pandas DataFrame of features 
targets: pandas DataFrame of targets 
batch size: Size of batches to be passed to the model 
shuffle: True or False. Whether to shuffle the data. 
num epochs: Number of epochs for which data should be repeated. None - repeat 
indefinitely 
Returns: 
Tuple of (features, labels) for next data batch 


4 Convert pandas data into a dict of np arrays. 
features = {key:np.array(value) for key,value in dict(features).items()] 


# Construct a dataset, and configure batching/repeating. 
ds = Dataset.from tensor slices((features,targets)) # warning: 2GB limit 
ds = ds.batch(batch size).repeat (num epochs) 


# Shuffle the data, if specified. 
if shuffle: 
ds - ds.shuffle(10000) 


# Return the next batch of data. 
features, labels = ds.make one shot iterator().get next() 
return features, labels 


下 面 的 代码 配置 所 有 的 特征 列 为 一 个 单独 的 函数 : 


def construct feature columns (input features) : 
"""Construct the TensorFlow Feature Columns. 

















Args: 
input features: The names of the numerical input features to use. 
Returns: 
A set of feature columns 
nnn 
return set([tf.feature column.numeric column (my feature) 
for my feature in input features]) 


下 面 是 模型 训练 函数 : 


def train model( 
learning rate, 
steps, 
batch size, 
training examples, 
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training targets, 
validation examples, 
validation targets): 





Trains a linear regression model of multiple features. 


In addition to training, this function also prints training progress information, 


as well as a plot of the training and validation loss over time. 


Args: 
learning rate: A ^float', the learning rate. 


steps: A non-zero “int*, the total number of training steps. A training step 


consists of a forward and backward pass using a single batch. 
batch size: A non-zero “int*, the batch size. 
training examples: A "DataFrame' containing one or more columns from 
"california housing dataframe' to use as input features for training. 
training targets: A "DataFrame' containing exactly one column from 
"california housing dataframe' to use as target for training. 
validation examples: A "DataFrame' containing one or more columns from 
"california housing dataframe' to use as input features for validation. 
validation targets: A "DataFrame' containing exactly one column from 
"california housing dataframe' to use as target for validation. 


Returns: 


A ^LinearRegressor' object trained on the training data. 
"nn 


periods - 10 
steps per period - steps / periods 


# Create a linear regressor object. 


my optimizer - tf.train.GradientDescentOptimizer(learning rate-learning rate) 
my optimizer = tf.contrib.estimator.clip gradients by norm(my optimizer, 5.0) 


linear regressor - tf.estimator.LinearRegressor( 
feature columns-construct feature columns(training examples), 
optimizer-my optimizer 


# Create input functions. 
training input fn - lambda: my input fn( 
training examples, 
training targets["median house value"], 
batch size-batch size) 
predict training input fn = lambda: my input fn( 
training examples, 
training targets["median house value"], 
num epochs=1, 
shuffle-False) 
predict validation input fn = lambda: my input fn( 
validation examples, validation targets["median house value"], 
num epochs=1, 
shuffle-False) 
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# Train the model, but do so inside a loop so that we 
# loss metrics. 
print "Training model..." 
print "RMSE (on training data):" 
training rmse - [] 
validation rmse - [] 
for period in range (0, periods): 
# Train the model, starting from the prior state. 
linear regressor.train( 
input fn-training input fn, 
steps-steps per period, 
) 
# Take a break and compute predictions. 
training predictions - 
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can periodically assess 


linear regressor.predict(input fn-predict training input fn) 
training predictions - np.array([item['predictions'][0] for item in 


training predictions]) 


validation predictions - 


linear regressor.predict(input fn-predict validation input fn) 
validation predictions - np.array([item['predictions'][0] for item in 


validation predictions]) 


# Compute training and validation loss. 

training root mean squared error = math.sqrt ( 
metrics.mean squared error(training predictions, 

validation root mean squared error = math.sqrt ( 


training targets) ) 


metrics.mean squared error (validation predictions, validation targets) ) 


# Occasionally print the current loss. 


print " period $02d : $0.2f" % (period, training root mean squared error) 


# Add the loss metrics from this period to our list. 


training rmse.append(training root mean squared error) 
validation rmse.append(validation root mean squared error) 


print "Model training finished." 


# Output a graph of loss metrics over periods. 
plt.ylabel ("RMSE") 

plt.xlabel ("Periods") 

plt.title("Root Mean Squared Error vs. Periods") 
plt.tight layout () 

plt.plot(training rmse, label="training") 
plt.plot (validation rmse, label="validation") 
plt.legend() 


return linear regressor 


开始 训练 一 个 模型 : 


linear regressor = train model( 
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learning rate=0.00003, 

steps=500, 

batch size=5, 

training examples=training examples, 

training targets=training targets, 

validation examples=validation examples, 
validation targets-validation targets) 


相关 结果 如 图 8-43、 图 8-44 所 示 。 


Training model... 
RMSE (on training data): 


period 00 : 218.00 
period 01 : 200.49 
period 02 : 186.94 





period 03 : 178.77 
period 04 : 172.01 
period 05 : 168.97 
period 06 : 167.58 
period 07 : 168.04 
period 08 : 168.78 
period 09 : 170.06 
Model training finished. 


8-43 训练 数据 


Root Mean Squared Error vs. Periods 


20 
一 taming 
~ 一 validation 
210 
70 
出 
四 
gm 
180 
170 
0 2 4 6 8 


Periods 
图 8-44 训练 结果 
在 结果 图 上 ， 比 较 了 训练 数据 和 验证 数据 的 根 均 方 误差 (Root Mean Squared Error, 
RMSE) 。 下 面 我 们 来 看 一 下 在 测试 数据 集 上 的 模型 的 表现 : 


california housing test data = 
pd.read csv("https://storage.googleapis.com/mledu-datasets/california housing 
test.csv", sep=",") 
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test examples = preprocess features(california housing test data) 
test targets = preprocess targets(california housing test data) 


predict test input fn - lambda: my input fn( 
test examples, 
test targets["median house value"], 
num epochs-1, 
shuffle-False) 


test predictions - linear regressor.predict(input fn-predict test input fn) 
test predictions = np.array([item['predictions'][0] for item in test predictions]) 


root mean squared error - math.sqrt( 
metrics.mean squared error(test predictions, test targets)) 


print "Final RMSE (on test data): $0.2f" $ root mean squared error 


测试 数据 验证 结果 如 图 8-45 所 示 。 


Final RMSE (on test data): 162.45 


图 8-45 ”测试 数据 验证 结果 


8.4 IIE 


在 现实 世界 中 , 我 们 拿 到 的 数据 可 能 是 数据 库 记 录 、 文 本 文件 或 其 他 形式 。 我 们 必须 从 各 
种 各 样 的 数据 源 中 提取 数据 , 然后 根据 这 些 数据 创建 特征 向 量 。 从 原始 数据 中 提取 特征 的 过 程 
称 为 特征 工程 。 从 事 机 器 学 习 的 专业 人 员 将 花费 超过 一 半 的 时 间 在 特征 工程 方面 。 


8.4.1 数值 型 数据 


接 下 来 ， 我 们 了 解 一 下 特征 工程 是 如 何 发 生 的 ， 也 就 是 说 ， 怎 么 从 原始 数据 (Raw Data) 
中 提取 特征 。 如 果 某 个 记录 本 来 就 是 一 个 数字 , 例如 房子 的 房间 数量 , 我 们 可 以 直接 把 这 个 值 
对 应 到 一 个 特征 向 量 (feature vector) 中 ， 如 图 8-46 所 示 。 
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Raw Data Feature Vector 

0, 

E 1.0, 

house info : { 00. 

num rooms: 6 Feature Engineering Dg p 

num bedrooms: 3 E 00, Process of creating 

street name: "Shorebird Way" "d : 人 

num basement rooms: -1 2. 20, engineering. 


, 1.01, 
0.0, 
} - 
Raw data doesn't come ] 
to us as feature vectors. 


8-46 ”房间 数量 对 应 到 一 个 特征 向 量 中 


8.4.2 ”字符 串 数据 和 one-hot 编码 


机 器 学 习 模型 是 针对 数值 型 数据 进行 训练 , 但 是 模型 不 能 从 字符 串 数据 中 学 习 。 如 果 我 们 
面 对 的 是 一 个 字符 串 ， 比 如 地 址 中 的 街 名 〈 长 安 街 )， 那 么 我 们 该 怎么 办 呢 ? 这 时 候 就 需要 特 
征 工程 把 字符 串 数据 转化 为 数值 型 数据 。 如 果 见 到 的 是 字符 串 值 ， 我 们 通常 可 以 使 用 独 执 
Cone-hot) 编码 ， 将 其 转化 为 特征 向 量 。 独 热 编码 针对 我 们 可 能 见 到 的 每 个 字符 串 都 提供 了 
一 个 唯一 的 数字 。 例 如 “长 安 街 ”， 我 们 就 指定 为 1， 其 他 就 为 0。 我们 可 以 将 这 个 独 热 编码 
用 作 表 示 字 符 串 的 特征 向 量 。 独 热 编码 要 求 : 只 有 一 个 字符 串 值 为 1， 其 他 都 为 0。 


8.4.3 枚 举 数据 《〈 分 类 数据 ) 


分 类 (categorical) 特征 具有 一 些 枚 举 数据 ， 即 一 个 离散 数据 的 集合 。 比 如 ， 一 个 性 别 的 
特征 可 能 只 包含 三 个 值 : {“ 男 ”，“ 女 ”，“ 未 知 ”}。 我 们 可 能 想到 把 这 些 数据 编码 为 0、 
1、2。 但 是 ， 在 机 器 学 习 模型 中 ， 一 般 情 况 下 ， 把 每 个 分 类 数据 表示 为 一 个 单独 的 布尔 值 。 在 
上 面 的 性 别 例子 中 ， 模 型 可 能 使 用 3 个 不 同 的 布尔 特征 。 

@ x: 是 男 的 ? 

© x: 是 女 的? 

© xc 未 知 ? 





8.44 好 特征 


那么 , 什么 样 的 特征 才 是 好 特征 呢 ? 首 先 , 一 个 特征 应 具有 非 零 值 ， 并且 特 征 值 在 数据 集 
中 至 少 出 现 5 次 或 更 多 次 。 这 样 模型 才能 了 解 这 个 特征 值 和 标签 之 间 的 关系 。 如 果 一 个 特征 在 
具有 非 零 值 的 情况 下 出 现 的 次 数 十 分 少 ,或 仅 出 现 过 一 次 ,恐怕 就 不 是 一 个 值得 使 用 的 好 特征 ， 
应 该 在 预 处 理 步骤 中 过 滤 掉 。 比 如 ， 房 屋 类 型 特征 变量 ， 针 对 某 个 具体 的 房屋 类 型 ， 样 本 数据 
有 很 多 。 那 么 ， 房 屋 类 型 特征 可 能 是 一 个 好 的 特征 。 再 比如 ， 房 屋 编号 可 能 是 一 个 差 的 特征 ， 
因为 每 个 房屋 编号 可 能 只 有 一 个 样本 数据 ， 那 么 模型 就 无 法 从 房屋 编号 上 学 到 什么 东西 。 

其 次 , 特征 应 具有 清晰 明显 (直接) 的 意义 。 这 样 一 来 ， 我们 就 可 以 方便 地 进行 有 效 的 检 
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E. 例如， 以 年 为 单位 来 计算 一 座 房子 的 年 龄 要 远 远 好 于 以 秒 为 单位 来 计算 。 这 方便 以 后 排除 
错误 和 进行 推理 。 例 如 ， 我 们 定义 一 个 特征 ， 作 用 是 告诉 我 们 一 座 房子 上 市 了 多 少 天 才 出 售 。 
有 些 工 程 师 喜 欢 用 特殊 值 -1 来 表示 这 座 房子 从 未 上 市 出 售 过 。 对 于 机 器 学 习 来 说 ， 这 不 是 一 
个 好 的 设计 。 好 的 主意 是 定义 一 个 指示 型 特征 , 让 这 个 特征 采用 布尔 值 ， 以 便 表示 是 否 已 定义 
“上 市 出 售 天 数 ”特征 。 借 助 这 种 方式 ， 原 来 的 特征 “上 市 出 售 天 数 ” 可 以 保持 0~n 的 自然 
单位 。 

还 有 ， 特 征 值 不 应 随时 间 发 生变 化 。 这 一 点 回 到 了 数据 的 平稳 性 这 一 概念 。 


8.4.5 数据 清洗 

对 于 机 器 学 习 而 言 , 预先 了 解 源 数 据 是 至 关 重要 的 。 我 们 不 能 将 机 器 学 习 当 作 一 个 黑 盒 子 ， 
把 数据 丢 进去 ， 却 不 检查 数据 ， 就 盼 着 能 够 获得 好 结果 ， 这 种 做 法 并 不 妥当 。 有 时 ， 我 们 要 监 
控 一 段 时 间 内 的 数据 。 数 据 源 昨天 情况 很 好 ， 并 不 意味 着 明天 情况 也 会 很 好 。 有 时 ， 数 据 集中 
的 有 些 数据 可 能 并 不 可 靠 。 因 此 , 我 们 能 做 的 就 是 , 使 用 直方 图 或 散 点 图 以 及 各 种 排名 指标 将 
数据 直观 地 显示 出 来 ， 查 看 数据 的 统计 信息 (如 最 大 /最 小 值 、 均 值 等 )。 我 们 写 一 些 代码 查 
找 重复 值 和 缺失 值 ， 查 找 不 正确 的 标签 数据 和 特征 值 ， 然 后 将 它们 清除 出 数据 集 。 

在 选取 特征 时 应 考虑 排除 离 群 值 。 例 如， 在 加 利 福 尼 亚 州 的 住房 数据 中 ， 如 果 我 们 创建 一 
个 合成 特征 , 例如 入 均 房 间 数 ， 即 房间 总 数 除 以 人 口 总 数 ， 那 么 对 于 大 多 数 城市 街区 , 我们 都 
会 得 到 介 于 每 人 0 到 3 或 4 个 房间 的 相对 合理 的 值 。 如 果 出 现 高 达 50 的 值 ， 这 样 的 值 就 太 不 
正常 了 ， 是 一 个 离 群 值 。 再 比如 ， 年 龄 数据 为 200， 这 个 可 能 是 一 个 离 群 值 。 此 时 ， 我 们 或 许 
可 以 为 特征 设置 上 限 或 转换 特征 ， 以 便 去 掉 这 些 不 理性 的 离 群 值 。 这 就 是 数据 清洗 的 工作 。 还 
有 一 种 数据 清洗 的 标准 化 方法 是 将 特征 数据 (比如 1000 到 8000) 缩放 (scale) 至 给 定 的 最 小 
值 与 最 大 值 之 间 ， 通 常 是 0 与 1 之 间 。 

我 们 来 看 一 个 具体 的 例子 。 图 8-47 的 左 图 描述 了 roomsPerPerson 特征 的 数据 分 布 。 
roomsPerPerson 指 一 个 区 域内 每 人 所 占用 的 房间 数 。 大 多 数 特征 数据 集中 在 1 和 2 之 间 , 看 上 
去 比较 合理 。 但 是 也 有 50 的 数据 。 为 了 减少 离 群 值 的 影响 ， 我 们 使 用 log 函数 把 特征 值 缩 放 
了 ， 如 图 8-47 的 右 图 所 示 。 








50 rooms per 
person!? 
Better, but still 
some large outlier 


roonsPerPerson = totalRoons / population roomsPerPerson = toel (totalRooms / population) + 1) 
8-47 ”高 群 值 实例 
虽然 log 缩放 函数 帮 了 一 些 忙 ， 但 是 还 有 高 群 值 。 我 们 修剪 最 大 值 到 4， 如 图 8-48 所 示 。 
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= Distribution looks 

bu more normal... 
„with one 
artifact 


roomsPerPerson - min(totalRooms / population, 4) 






4 


848 数据 修剪 


“修剪 最 大 值 到 4” 的 意思 是 所 有 超过 4 的 值 都 变 成 4〈 不 是 把 这 些 数据 扔 掉 ) 。 可 以 看 
到 图 8-48 在 4 那里 有 一 个 突起 。 尽 管 如 此 ， 缩 小 的 特征 数据 集 更 好 了 。 


8.4.6 分 箱 〈 分 桶 ) 技术 


我 们 还 可 以 考虑 另 一 种 技术 ， 那 就 是 分 箱 (bin， 也 叫 分 桶 ) 技术 。 如 果 要 探讨 纬度 对 加 
利 福 尼 亚 州 住房 价格 的 影响 ,我 们 发 现 并 不 存在 由 北向 南 的 可 直接 映射 到 住房 价格 上 的 线性 关 
系 〈 见 图 8-49) 。 在 维度 34 附近 是 洛杉矶 ， 在 维度 38 附近 是 旧金山 。 但 是 在 某 个 特定 纬度 
范围 内 ， 却 往往 存在 很 强 的 关联 。 因 此 ， 我 们 能 做 的 就 是 ， 将 由 北向 南 的 纬度 划分 成 11 个 不 
同 的 小 分 箱 〈 见 图 8-50) ， 每 个 小 分 箱 可 以 是 一 个 布尔 特征 。 针 对 这 些小 分 箱 ， 每 个 维度 数 
值 都 会 变 成 一 个 布尔 值 ， 此 时 我 们 就 可 以 使 用 独 热 编码 。 现 在， 如 果 映 射 到 洛杉矶 附近 的 特定 
分 箱 中 ， 那 么 基本 上 会 得 到 一 个 1， 或 者 映射 到 旧金山 的 特定 分 箱 中 ， 也 会 得 到 一 个 1; 而 在 
其 他 任何 地 区 ， 都 会 得 到 一 个 0。 使 用 11 个 特征 有 点 复杂 ， 所 以 我 们 可 以 使 用 一 个 11 元 素 的 
向 量 。 比 如 ， 维 度 37.4 附近 就 是 [0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0]。 借 助 这 种 方式 ， 我 们 的 模型 可 以 
将 部 分 非 线性 关系 映射 到 模型 中 。 


07 








06 


latitude 


图 8-49 ”加州 的 纬度 和 房价 关系 图 
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LatitudeBin1 = 32 < latitude <= 33 







LatitudeBin6 = 37 < latitude <= 



























latitud 





8-50 4M 


8.4.7 ”特征 工程 实例 


在 前 面 一 节 中 , 我 们 在 例子 代码 中 用 到 了 所 有 的 特征 变量 。 本 节 将 尝试 使 用 尽 可 能 少 的 特 
征 变量 来 达到 一 样 的 效果 。 特 征 变量 少 , 用 的 系统 资源 也 少 ， 系 统 代码 也 易于 维护 。 下 面 的 代 
码 首先 装载 样本 数据 : 


import math 

from IPython import display 

from matplotlib import cm 

from matplotlib import gridspec 

from matplotlib import pyplot as plt 
import numpy as np 

import pandas as pd 

from sklearn import metrics 

import tensorflow as tf 

from tensorflow.python.data import Dataset 


tf.logging.set verbosity(tf.logging.ERROR) 
pd.options.display.max rows - 10 
pd.options.display.float format = '[:.1f)'.format 


california housing dataframe = 

pd.read csv ("https://storage.googleapis.com/mledu-datasets/california housing 

train.csv", sep-",") 

california housing dataframe = california housing dataframe.reindex( 
np.random.permutation(california housing dataframe.index)) 


定义 了 2 个 预 处 理 函 数 ， 一 个 是 预 处 理 特征 数据 ， 另 一 个 是 预 处 理 标 签 数据 : 


def preprocess features (california housing dataframe): 
"""Prepares input features from California housing data set. 


Args: 
california housing dataframe: A Pandas DataFrame expected to contain data 
from the California housing data set. 
Returns: 
A DataFrame that contains the features to be used for the model, including 
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synthetic features. 


selected features = california housing dataframe[ 
["latitude", 
"longitude", 
"housing median age", 
"total rooms", 
"total bedrooms", 
"population", 
"households", 
"median income"]] 
processed features - selected features.copy() 
# Create a synthetic feature. 
processed features["rooms per person"] - ( 
california housing dataframe["total rooms"] / 
california housing dataframe["population"]) 
return processed features 


def preprocess targets(california housing dataframe): 
"""Prepares target features (i.e., labels) from California housing data set. 


Args: 
california housing dataframe: A Pandas DataFrame expected to contain data 
from the California housing data set. 
Returns: 


A DataFrame that contains the target feature. 
n 





output targets = pd.DataFrame () 
# Scale the target to be in units of thousands of dollars. 
output targets ["median house value"] = ( 

california housing dataframe["median house value"] / 1000.0) 
return output targets 


抽取 前 面 12000 个 样本 数据 为 训练 集 ， 最 后 5000 个 样本 数据 为 验证 集 : 


# Choose the first 12000 (out of 17000) examples for training. 

training examples = 

preprocess features(california housing dataframe.head(12000)) 

training targets = preprocess targets(california housing dataframe.head(12000)) 

















# Choose the last 5000 (out of 17000) examples for validation. 
validation examples = 

preprocess features(california housing dataframe.tail(5000)) 
validation targets = 

preprocess targets(california housing dataframe.tail(5000)) 


下 面 打印 各 个 数据 集 的 统计 信息 : 
# Double-check that we've done the right thing. 
print "Training examples summary:" 
display.display (training examples.describe()) 




















254 


第 8 章 TensorFl 


结果 如 图 8-51 所 示 。 


Training examples summary 


latitude longitude housing median age total rooms total bedrooms population households median income rooms per person 


count 120000 120000 12000.0 12000.0 12000.0 12000.0 12000.0 12000.0 12000.0 
mean 35.6 -119.6 28.6 2642.5 539.9 1430.6 502.0 39 2.0 
std 24 20 126 21828 423.6 1149.9 386.6 T9 12 
min 325 -1243 10 20 10 30 10 05 01 
2596 339 -1218 180 1463.0 297.0 789.0 2810 26 15 
50% 342 -118.5 29.0 2127.0 432.0 1169.0 409.0 36 19 
7596 377 -118.0 37.0 3153.0 649.0 17192 605.0 48 23 
max 420 -114.3 52.0 37937.0 5471.0 35682.0 5189.0 15.0 55.2 


图 8-51 各 数据 集 的 统计 信息 


print "Validation examples summary:" 
display.display(validation examples.describe()) 


结果 如 图 8-52 所 示 。 


Validation examples summary 


latitude longitude housing median age total rooms total bedrooms population households median income rooms per person 


count — 5000.0 5000.0 5000.0 5000.0 5000.0 5000.0 5000.0 5000.0 5000.0 
mean 356 -119.6 28.6 2646.4 538.2 1427.1 499.3 39 20 
std 24 2.0 12.6 2173.3 416.5 1143.1 379.4 19 12 
min 32.6 -124.3 1.0 11.0 3.0 9.0 20 0.5 0.0 
25% 33.9 -121.8 18.0 1457.8 296.0 791.0 282.0 25 1.5 
50% 343 -118.5 29.0 2128.0 438.0 1161.0 409.0 3.5 20 
75% 37.7 -118.0 37.0 3148.5 648.0 1725.2 607.0 47 23 
max 42.0 -114.5 52.0 32627.0 6445.0 28566.0 6082.0 150 413 


图 8-52 有 效 数据 概况 


print "Training targets summary:" 
display.display(training targets.describe()) 


结果 如 图 8-53 所 示 。 


Training targets summary 


median house value 
12000.0 

207.2 

115.6 

15.0 

120.8 

179.9 

264.3 

500.0 





图 8-53 训练 目标 概况 
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print "validation targets summary:" 
display.display(validation targets.describe()) 


结果 如 图 8-54 所 示 。 


Validation targets summary: 


median house value 
5000.0 

207.5 

116.8 





图 8-54 有 效 目标 概况 


在 讲 到 相关 性 度量 的 时 候 ， 有 一 个 系数 用 来 度量 相似 性 〈 距 离 ) ， 这 个 系数 叫 作 皮尔 逊 系 
数 , 在 统计 学 中 学 过 ， 只 是 当时 不 知道 还 能 用 到 机 器 学 习 中 来 (这 更 加 让 笔者 觉得 机 器 学 习 离 
不 开 统 计 学 ) 。 皮 尔 逊 相关 系数 (Pearson Correlation Coefficient) 用 于 度量 两 个 变量 之 间 的 相 
关 性 ， 其 值 介 于 -1 与 1 之 间 ， 值 越 大 则 说 明 相 关 性 越 强 。 两 个 变量 之 间 的 皮尔 逊 相关 系数 定 
义 为 两 个 变量 之 间 的 协 方差 和 标准 差 的 商 。 比 如 ， 各 个 特征 之 间 ， 或 者 各 个 特征 与 标签 之 间 。 
它 的 值 的 意思 如 下 。 

e -10: 完全 负 相关 。 

€ 00: 不 相关 。 

© 10: 完全 正 相关 。 


下 面 让 我 们 来 看 一 下 样本 数据 的 相关 性 : 


correlation dataframe = training examples .copy () 
correlation dataframe["target"] = training targets ["median house value"] 
correlation dataframe Scorrü 





结果 如 图 8-55 所 示 。 
latitude longitude housing median age total rooms total bedrooms population households median income rooms per person target 
latitude 10 -09 00 -00 -01 -01 -01 -01 01 -01 
longitude -09 10 -01 00 01 01 04 -00 -01 01 
housing median age 00 -01 10 -04 -03 -03 -03 -01 -01 01 
total rooms -0.0 00 -04 10 09 09 09 02 01 0.1 
total bedrooms -0.1 01 -03 09 10 os 10 -0.0 00 00 
population -0.1 01 -0.3 09 09 10 09 -0.0 -0.1 -0.0 
households -01 01 -03 09 10 09 10 00 -00 01 
median income -01 -00 -01 02 -00 -00 00 10 oz 07 
rooms per person 01 EI -01 01 00 -01 -00 02 10 02 
target -01 -01 01 01 00 -00 01 07 02 10 








图 8-55 样本 数据 的 相关 性 
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理想 情况 下 , 我 们 选取 那些 与 标签 具有 强 相关 性 的 特征 , 同时 特征 之 问 尽量 不 具有 强 相关 
性 〈 即 都 是 尽量 独立 的 信息 ) 。 
我 们 定义 一 个 特征 列 结构 : 


def construct feature columns (input features): 
"""Construct the TensorFlow Feature Columns. 


Args: 
input features: The names of the numerical input features to use. 
Returns: 
A set of feature columns 
"nn 
return set([tf.feature column.numeric column (my feature) 
for my feature in input features]) 


定义 一 个 输入 函数 : 


def my input fn(features, targets, batch size-1, shuffle-True, num epochs=None): 
"""Trains a linear regression model. 


Args: 
features: pandas DataFrame of features 
targets: pandas DataFrame of targets 
batch size: Size of batches to be passed to the model 
shuffle: True or False. Whether to shuffle the data. 
num epochs: Number of epochs for which data should be repeated. None - repeat 
indefinitely 
Returns: 
Tuple of (features, labels) for next data batch 


# Convert pandas data into a dict of np arrays. 
features = {key:np.array(value) for key,value in dict(features).items()] 


# Construct a dataset, and configure batching/repeating. 
ds = Dataset.from tensor slices((features,targets)) # warning: 2GB limit 
ds = ds.batch(batch size).repeat(num epochs) 


# Shuffle the data, if specified. 
if shuffle: 
ds = ds.shuffle(10000) 


# Return the next batch of data. 
features, labels = ds.make one shot iterator().get next() 
return features, labels 


定义 一 个 模型 训练 函数 : 


def train model( 
learning rate, 
steps, 
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batch size, 
training examples, 
training targets, 
validation examples, 
validation targets): 
"""Trains a linear regression model. 


In addition to training, this function also prints training progress information, 
as well as a plot of the training and validation loss over time. 


Args: 

learning rate: A ^float', the learning rate. 

steps: A non-zero "int', the total number of training steps. A training step 
consists of a forward and backward pass using a single batch. 

batch size: A non-zero “int*, the batch size. 

training examples: A "DataFrame' containing one or more columns from 
"california housing dataframe' to use as input features for training. 

training targets: A "DataFrame' containing exactly one column from 
"california housing dataframe' to use as target for training. 

validation examples: A "DataFrame' containing one or more columns from 
"california housing dataframe' to use as input features for validation. 

validation targets: A "DataFrame' containing exactly one column from 
"california housing dataframe' to use as target for validation. 


Returns: 
A ^LinearRegressor' object trained on the training data. 





periods - 10 
steps per period - steps / periods 


# Create a linear regressor object. 
my optimizer - tf.train.GradientDescentOptimizer(learning rate-learning rate) 
my optimizer = tf.contrib.estimator.clip gradients by norm(my optimizer, 5.0) 
linear regressor - tf.estimator.LinearRegressor( 
feature columns-construct feature columns(training examples), 
optimizer-my optimizer 


# Create input functions. 
training input fn - lambda: my input fn(training examples, 
training targets["median house value"], 
batch size-batch size) 
predict training input fn = lambda: my input fn(training examples, 
training targets["median house value"], 
num epochs=1, 
shuffle-False) 
predict validation input fn = lambda: my input fn(validation examples, 


validation targets["median house value"], 
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num epochs=1, 
shuffle-False) 


# Train the model, but do so inside a loop so that we can periodically assess 
# loss metrics. 
print "Training model..." 
print "RMSE (on training data):" 
training rmse - [] 
validation rmse - [] 
for period in range (0, periods): 
# Train the model, starting from the prior state. 
linear regressor.train( 
input fn-training input fn, 
steps-steps per period, 
) 
# Take a break and compute predictions. 
training predictions - 
linear regressor.predict(input fn-predict training input fn) 
training predictions - np.array([item['predictions'][0] for item in 
training predictions]) 


validation predictions - 
linear regressor.predict(input fn-predict validation input fn) 
validation predictions - np.array([item['predictions'][0] for item in 
validation predictions]) 


# Compute training and validation loss. 
training root mean squared error = math.sqrt( 
metrics.mean squared error(training predictions, training targets)) 
validation root mean squared error - math.sqrt( 
metrics.mean squared error(validation predictions, validation targets)) 
# Occasionally print the current loss. 
print " period $02d : $0.2f" $ (period, training root mean squared error) 
# Add the loss metrics from this period to our list. 
training rmse.append(training root mean squared error) 
validation rmse.append(validation root mean squared error) 
print "Model training finished." 


# Output a graph of loss metrics over periods. 
plt.ylabel ("RMSE") 

plt.xlabel ("Periods") 

plt.title("Root Mean Squared Error vs. Periods") 
plt.tight layout () 

plt.plot (training rmse, label="training") 
plt.plot (validation rmse, label="validation") 
plt.legend() 


return linear regressor 


我 们 选取 了 收入 和 维度 作为 特征 变量 ， 获 取 相关 的 训练 集 和 验证 集 ， 然 后 训 





练 模型 : 
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minimal features = [ 
"median income", 
"latitude", 


minimal training examples - training examples[minimal features] 


minimal validation examples 


= train model( 
learning rate-0.01, 
steps=500, 
batch size=5, 


validation examples[minimal features] 


training examples=minimal training examples, 
training targets=training targets, 

validation examples=minimal validation examples, 
validation targets-validation targets) 


训练 结果 如 图 8-56. FA 8-57 所 示 。 


no 
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Training model... 
RMSE (on training data): 


period 00 : 165.29 
period 01 : 123.02 
period 02 : 116. 80 
period 03 : 116. 04 


period 04 : 115 
period 05 : 116. 
period 06 : 114 
period 07 : 113 
period 08 : 112.88 
period 09 : 112.43 
Model training finished 


图 8-56 ”训练 数据 


Root Mean Squared Error vs. Periods 


4 6 8 
Penods 


图 8-57 训练 结果 
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正如 前 面 所 讨论 的 ，latitude 和 median house value 并 不 是 线性 关系 ， 而 是 在 洛杉矶 和 旧 
金山 附近 有 两 个 突起 。 执 行 下 面 的 代码 来 查看 : 


plt.scatter(training examples["latitude"], 
training targets["median house value"]) 


结果 如 图 8-58 所 示 。 


<matplotlib. collections. PathCollection at 0x7fb98d870a50> 





图 8-58 latitude 和 median house value 无 线性 关系 
下 面 我 们 采用 分 桶 技术 来 更 好 地 使 用 维度 特征 : 


LATITUDE RANGES = zip(xrange(32, 44), xrange(33, 45)) 


def select and transform features (source df): 
selected examples - pd.DataFrame() 
selected examples["median income"] - source df["median income"] 
for r in LATITUDE RANGES: 
selected examples["latitude $d to $d" $ r] = source df["latitude"].apply( 
lambda 1: 1.0 if 1 »- r[0] and 1 « r[1] else 0.0) 
return selected examples 


selected training examples = select and transform features(training examples) 
selected validation examples = 
select and transform features (validation examples) 


开始 训练 模型 : 


= train model( 
learning rate-0.01, 
steps-500, 
batch size-5, 
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training examples-selected training examples, 


training targets-training targets, 


validation examples-selected validation examples, 
validation targets-validation targets) 


结果 如 图 8-59, K| 8-60 所 示 。 


Training model... 


RMSE (on training 
period 00 : 
period 01 : 
period 02 : 
period 03 : 
period 04 : 
period 05 : 
period 06 : 
period 07 : 
period 08 : 


period 09 


221. 


221. 
216. 
206. 
196. 
186. 
177. 
167. 
158. 
149. 
: 140. 


data): 
05 
86 
77 
81 


08 


Model training finished. 


8-59 训练 数据 


Root Mean Squared Error vs. Periods 


— taining 
— validation 

20 

20 
出 
È 180 

160 

40 

0 2 4 6 8 
Periods. 
图 8-60 训练 结果 


第 9 章 
TensorFlow 高 级 知识 


本 章 是 第 8 章 内 容 的 延续 ， 主 要 阐述 几 个 高 级 主题 包括 特征 交叉 、 正 则 化 、 轴 辑 回 归 和 
分 类 。 





特征 交叉 


特征 交叉 (Feature Crosses) 是 通过 将 单独 的 特征 进行 组 合 〈 相 乘 或 求 笛 卡尔 积 ) 而 形成 
的 合成 特征 。 特 征 交 叉 有 助 于 把 非 线性 关系 表示 为 线性 关系 。 比 如 ， 对 于 如 图 9-1 所 示 的 非 线 
性 问题 ， 我 们 无 法 画 任何 一 条 线 来 分 开 蓝 色 〈 深 色 ) 和 黄色 GRE) 的 点 (它们 可 能 代表 健康 
和 不 健康 ) 。 





图 9-1 非 线性 问题 图 9-2 特征 交叉 


9.1.1 什么 是 特征 交叉 

要 解决 图 9-1 所 示 的 非 线性 问题 ， 我 们 可 以 创建 一 个 特征 交叉 〈 见 图 9-2) 。 特 征 交叉 是 
指 通过 将 两 个 或 多 个 输入 特征 相 乘 来 对 特征 空间 中 的 非 线 性 规律 进行 编码 的 合成 特征 。cross 
(交叉 ) 这 一 术语 来 自 cross product (HMA) 。 我 们 通过 将 x, 与 xo 交 叉 组 合 来 创建 一 个 名 
为 xs 的 特征 交叉 : xs=xixz。 像 处 理 任何 其 他 特征 一 样 来 处 理 这 个 新 建 的 xs 特征 交叉 。 线 性 公 
式 变 为 : b+wixrHwzxz+waxs。 这 样 就 可 以 使 用 线性 算法 了 。 虽 然 ws 编码 了 非 线 性 信息 ， 但 
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我 们 不 需要 改变 线性 模型 的 训练 方式 就 能 确定 ws 的 值 。 
我 们 可 以 创建 很 多 不 同 种 类 的 特征 交叉 ， 例 如 : 


@ [AxB]: 将 两 个 特征 的 值 相 来 形成 的 特征 交叉 。 
€ [AxBxCxDxE]: 将 5 个 特征 的 值 相 乘 形成 的 特征 交叉 。 
@ [Ax A: 对 单个 特征 的 值 求 平 方形 成 的 特征 交叉 。 


通过 采用 随机 梯度 下 降 法 可 以 有 效 地 训练 线性 模型 。 因 此 , 在 使 用 扩展 的 线性 模型 时 辅 以 
特征 交叉 一 直 都 是 训练 大 规模 数据 集 的 有 效 方法 。 在 实际 工作 中 , 机 器 学 习 模 型 很 少 会 交叉 具 
有 连续 值 的 特征 。 机 器 学 习 模型 却 经 常 交 叉 独 热 Cone hot) 特征 向 量 , 将 独 热 特 征 向 量 的 特征 
交叉 视 为 逻辑 连接 。 例如, 假设 具有 两 个 特征 : 国家 和 语言 。 对 每 个 特征 进行 独 热 编码 会 生成 
具有 二 元 特征 的 向 量 ， 这 些 二 元 特征 可 解读 为 country=USA 、country=France 或 
language=English、language=Spanish。 然 后 ， 如 果 你 对 这 些 独 热 编 码 进行 特征 交叉 ， 就 会 得 到 
可 解读 为 逻辑 连接 的 二 元 特征 ， 如 下 所 示 : 


country:usa AND language:spanish 


再 举 一 个 例子 ， 假 设 你 对 纬度 和 经 度 进行 分 箱 ， 获 得 单独 的 独 热 5 元 素 特征 向 量 。 例 如 ， 
一 个 特定 的 纬度 和 经 度 可 以 表示 如 下 : 
binned latitude = [0, 0, 0, 1, 0] 
binned longitude = [0, 1, 0, 0, 0] 

假设 我 们 创建 了 这 两 个 特征 向 量 的 特征 交叉 : 


binned latitude X binned longitude 


此 特征 交叉 是 一 个 25 元 素 独 热 矢量 (24 个 0 和 1 个 1) 。 该 交叉 组 合 中 的 唯一 一 个 1 表 
示 纬 度 与 经 度 的 连接 。 然 后 , 我 们 就 可 以 了 解 有 关 这 种 连接 的 特定 关联 性 。 假 设 我 们 更 粗略 地 
对 纬度 和 经 度 进行 分 箱 ， 如 下 所 示 : 
binned latitude(lat) = [ 
0 < lat <= 10 
10 « lat «- 20 


20 < Tat <= 30 
] 





binned longitude(lon) = [ 
ue lon c= 15 
1S < Lon <= 30 

] 


针对 上 述 这 些 分 箱 创建 特征 交叉 会 生成 具有 以 下 含义 的 合成 特征 


binned latitude X longitude(lat, lon) = [ 
0 < lat <= 10 AND 0 < lon <= 15 
0 < lat <= 10 AND 15 < lon <= 30 
10 < lat <= 20 AND 0 < lon <= 15 
10 < lat <= 20 AND 15 < lon <= 30 
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20 « lat <= 30 AND 0 < lon «- 15 
20 « lat «- 30 AND 15 « lon «- 30 
] 
现在 ， 假 设 我 们 的 模型 需要 根据 以 下 两 个 特征 来 预测 狗 主人 对 狗 的 满意 程度 : 
behavior type (RU, nY, RIK) 
Time of day (时 段 ) 


如 果 我 们 根据 这 两 个 特征 构建 以 下 特征 交叉 : 


[behavior type X time of day] 


最 终 获得 的 预测 能 力 将 远 远 超过 任 一 特征 单独 的 预测 能 力 。 例如 , 如果 狗 在 下 午 5 点 主人 
下 班 回来 时 (快乐 地 ) 叫喊 ,我们 可 以 预测 主人 满意 度 是 很 正面 的 。 如 果 狗 在 凌晨 3 点 主人 熟 
睡 时 〈 也 许 痛苦 地 ) 哀 叫 ， 我 们 可 以 预测 主人 满意 度 是 很 负面 的 。 

总 之 , 线性 学 习 器 可 以 很 好 地 扩展 到 海量 数据 。 在 大 规模 数据 集 上 使 用 特征 交叉 是 学 习 高 
度 复杂 模型 的 一 种 有 效 策略 。 神 经 网 络 可 提供 另 一 种 策略 。 


9.4.2. FTRL 实践 


我 们 还 是 使 用 加 州 房价 这 个 样本 数据 集 。 装载 数据 和 创建 训练 集 /验证 集 的 代码 与 8.4.7 节 
一 样 。 在 下 面 的 代码 中 ， 我 们 将 原来 的 SGD 梯度 下 降 训练 学 习 器 换 成 了 FTRL 
(Follow-The-Regularized-Leader) 训练 学 习 器 。 

FIRL 是 对 每 一 维 分 开 训练 更 新 的 ， 每 一 维 使 用 的 是 不 同 的 学 习 速率 〈 步 长 ) 。 与 所 有 特 
征 维 度 使 用 统一 的 学 习 速率 相 比 ， 这 种 方法 考虑 了 训练 样本 本 身 在 不 同 特征 上 分 布 的 不 均匀 
性 ， 如 果 某 一 个 维度 特征 的 训练 样本 很 少 ,每 一 个 样本 都 很 珍贵 , 那么 该 特征 维度 对 应 的 训练 
速率 可 以 独自 保持 比较 大 的 值 , 每 来 一 个 包含 该 特征 的 样本 , 就 可 以 在 该 样本 的 梯度 上 前 进 一 
大 步 ， 而 不 需要 与 其 他 特征 维度 的 前 进步 调 强行 保持 一 致 。 

训练 模型 代码 如 下 ， 要 注意 的 是 ， 我 们 在 使 用 FtlOptimizer: 
def train model( 

learning rate, 

steps, 

batch size, 

feature columns, 

training examples, 

training targets, 

validation examples, 


validation targets): 
"""Trains a linear regression model. 


In addition to training, this function also prints training progress information, 
as well as a plot of the training and validation loss over time. 


Args: 
learning rate: A ^float', the learning rate. 
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steps: A non-zero ^int', the total number of training steps. A training step 
consists of a forward and backward pass using a single batch. 

feature columns: A ^set' specifying the input feature columns to use. 

training examples: A "DataFrame' containing one or more columns from 
"california housing dataframe' to use as input features for training. 

training targets: A "DataFrame' containing exactly one column from 
"california housing dataframe' to use as target for training. 

validation examples: A ^DataFrame' containing one or more columns from 
"california housing dataframe' to use as input features for validation. 

validation targets: A "DataFrame' containing exactly one column from 
"california housing dataframe' to use as target for validation. 


Returns: 


A "LinearRegressor' object trained on the training data. 
"nn 


periods - 10 
steps per period - steps / periods 


# Create a linear regressor object. 
my optimizer - tf.train.FtrlOptimizer(learning rate-learning rate) 
my optimizer = tf.contrib.estimator.clip gradients by norm(my optimizer, 5.0) 
linear regressor - tf.estimator.LinearRegressor( 
feature columns-feature columns, 
optimizer-my optimizer 


training input fn - lambda: my input fn(training examples, 
training targets["median house value"], 
batch size-batch size) 

predict training input fn = lambda: my input fn(training examples, 


training targets["median house value"], 
num epochs=1, 
shuffle-False) 
predict validation input fn - lambda: my input fn(validation examples, 


validation targets["median house value"], 
num epochs=1, 
shuffle-False) 


# Train the model, but do so inside a loop so that we can periodically assess 
# loss metrics. 
print "Training model..." 
print "RMSE (on training data) :" 
training rmse = [] 
validation rmse = [] 
for period in range (0, periods): 

# Train the model, starting from the prior state. 

linear regressor.train( 

input fn-training input fn, 
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steps-steps per period 

) 

# Take a break and compute predictions. 

training predictions - 
linear regressor.predict(input fn-predict training input fn) 

training predictions - np.array([item['predictions'][0] for item in 
training predictions]) 

validation predictions - 
linear regressor.predict(input fn-predict validation input fn) 

validation predictions - np.array([item['predictions'][0] for item in 
validation predictions]) 


# Compute training and validation loss. 
training root mean squared error - math.sqrt( 
metrics.mean squared error(training predictions, training targets)) 
validation root mean squared error - math.sqrt( 
metrics.mean squared error(validation predictions, validation targets)) 
# Occasionally print the current loss. 
print " period $02d : $0.2f" $ (period, training root mean squared error) 
# Add the loss metrics from this period to our list. 
training rmse.append(training root mean squared error) 
validation rmse.append(validation root mean squared error) 
print "Model training finished." 


# Output a graph of loss metrics over periods. 
plt.ylabel ("RMSE") 

plt.xlabel ("Periods") 

plt.title("Root Mean Squared Error vs. Periods") 
plt.tight layout () 

plt.plot (training rmse, label="training") 
plt.plot (validation rmse, label="validation") 
plt.legend() 


return linear regressor 
下 面 我 们 进行 训练: 


= train model( 
learning rate-1.0, 
steps=500, 
batch size=100, 
feature columns=construct feature columns(training examples), 
training examples=training examples, 
training targets-training targets, 
validation examples-validation examples, 
validation targets-validation targets) 


结果 如 图 9-3、 图 9-4 所 示 。 
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Training model... 


RMSE (on training data): 
period 00 : 
period 01 : 
period 02 : 
period 03 : 
period 04 : 
period 05 : 
period 06 : 
period 07 : 
period 08 : 
period 09 : 

Model training finished. 


139. 
114. 
187. 
174. 
138. 
151. 
125. 
129. 
117. 
139. 
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TT 


82 
63 
71 
78 
91 


9-3 训练 数据 


Root Mean Squared Error vs. Periods 


0 2 4 


Periods. 


9-4 训练 结果 


9.1.3 分 桶 (分 箱 ) 代码 实例 


分 桶 也 称 为 分 箱 。 例 如 ， 我 们 可 以 将 population 分 为 以 下 3 个 分 桶 。 


€ bucket 0 (<5000): 对 应 于 人 口 分 布 较 少 的 街区 。 
€ bucket 1 (5000 - 25000): 对 应 于 人 口 分 布 适中 的 街区 。 
€ bucket 2 (> 25000): 对 应 于 人 口 分 布 较 多 的 街区 。 





根据 前 面 的 分 桶 定义 ， 以 下 population 矢量 : 














[[10001], [42004], [2500], [18000]] 
将 变 成 以 下 经 过 分 桶 的 特征 矢量 : 
[[1], [2], [0], [1]] 
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这 些 特征 值 现在 是 分 桶 索引 。 请 注意 ， 这 些 索引 被 视 为 离散 特征 。 通 常情 况 下 ， 这 些 特 征 
将 被 进一步 转换 为 独 热 编 码 表 示 ， 但 这 是 以 透明 方式 实现 的 。 要 为 分 桶 特征 定义 特征 列 ， 我 们 
可 以 使 用 bucketized_column (而 不 是 使 用 numeric column) , bucketized_column 将 数字 列 作 
HMA JEH boundaries 参数 中 指定 的 分 桶 边界 将 其 转换 为 分 桶 特征 。 以 下 代码 为 households 
和 longitude 定义 了 分 桶 特征 列 。get_quantile_ based boundaries 函数 会 根据 分 位 数 (quantile) 
计算 边界 (boundaries) ， 以 便 每 个 分 桶 包含 相同 数量 的 元 素 。 
def get quantile based boundaries(feature values, num buckets) : 

boundaries - np.arange(1.0, num buckets) / num buckets 


quantiles - feature values.quantile (boundaries) 
return [quantiles[q] for q in quantiles.keys()] 


# Divide households into 7 buckets. 
households = tf.feature column.numeric column ("households") 
bucketized households = tf.feature column.bucketized column ( 
households, boundaries=get quantile based boundaries ( 
california housing dataframe["households"], 7)) 


# Divide longitude into 10 buckets. 
longitude = tf.feature column.numeric column ("longitude") 
bucketized longitude = tf.feature column.bucketized column ( 
longitude, boundaries=get quantile based boundaries ( 
california housing dataframe["longitude"], 10)) 


在 前 面 的 代码 块 中 ， 两 个 实 值 列 ( 即 households 和 longitude) 已 被 转换 为 分 桶 特征 列 。 
剩 下 的 任务 是 对 其 余 的 列 进行 分 桶 , 然后 运行 代码 来 训练 模型 。 我 们 使 用 了 分 位 数 技巧 ,通过 
这 种 方式 选择 分 桶 边界 后 ， 每 个 分 桶 将 包含 相同 数量 的 样本 。 


def construct feature columns () : 
"""Construct the TensorFlow Feature Columns. 





Returns: 
A set of feature columns 
"nn 
households - tf.feature column.numeric column ("households") 
longitude = tf.feature column.numeric column ("longitude") 
latitude = tf.feature column.numeric column ("latitude") 
housing median age - tf.feature column.numeric column("housing median age") 
median income = tf.feature column.numeric column ("median income") 
rooms per person - tf.feature column.numeric column("rooms per person") 


# Divide households into 7 buckets. 
bucketized households = tf.feature column.bucketized column ( 
households, boundaries=get quantile based boundaries ( 
training examples["households"], 7)) 


# Divide longitude into 10 buckets. 


bucketized longitude = tf.feature column.bucketized column ( 
longitude, boundaries-get quantile based boundaries( 
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training examples["longitude"], 10)) 


# Divide latitude into 10 buckets. 
bucketized latitude = tf.feature column.bucketized column( 
latitude, boundaries-get quantile based boundaries( 
training examples["latitude"], 10)) 


# Divide housing median age into 7 buckets. 
bucketized housing median age - tf.feature column.bucketized column( 
housing median age, boundaries-get quantile based boundaries( 
training examples["housing median age"], 7)) 


# Divide median income into 7 buckets. 
bucketized median income = tf.feature column.bucketized column( 
median income, boundaries-get quantile based boundaries( 
training examples["median income"], 7)) 


# Divide rooms per person into 7 buckets. 
bucketized rooms per person = tf.feature column.bucketized column( 
rooms per person, boundaries-get quantile based boundaries( 
training examples["rooms per person"], 7)) 


feature columns - set([ 
bucketized longitude, 
bucketized latitude, 
bucketized housing median age, 
bucketized households, 
bucketized median income, 
bucketized rooms per person]) 


return feature columns 


分 桶 后 ， 开 始 训练 模型 : 


= train model( 
learning rate-1.0, 
steps=500, 
batch size=100, 
feature columns=construct feature columns(), 
training examples=training examples, 
training targets=training targets, 
validation examples=validation examples, 
validation targets-validation targets) 


运行 结果 如 图 9-5、 图 9-6 所 示 。 
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Training model... 

RMSE (on training data): 
period 00 : 169.90 
period 01 : 143.48 
period 02 : 126.97 
period 03 : 115.86 
period 04 : 108.04 
period 05 : 102.22 
period 06 : 97.78 
period 07 : 94.34 
period 08 : 91.42 
period 09 : 89.05 

Model training finished. 


9-5 训练 数据 


Root Mean Squared Error vs. Periods 





Periods. 


9-6 训练 结果 





9.1.4 ”特征 交叉 代码 实例 


交叉 组 合 的 两 个 (或 更 多 个 ) 特征 是 使 用 线性 模型 来 学 习 非 线性 关系 的 一 种 聪明 做 法 。 在 
我 们 的 例子 中 ,如 果 只 使 用 latitude TEM UN ME EE UN 
在 一 个 特定 纬度 范围 内 , 因为 我 们 已 经 将 其 分 桶 ) 的 城市 街区 更 可 能 比 其 他 街区 住房 成 本 高 
longitude 特征 的 情况 与 此 类 似 。 但是， 如果 我 们 将 longitude 与 latitude 交叉 组 合 ， apis 
交叉 组 合 特征 则 代表 一 个 明确 的 城市 街区 。 如果 模 型 发 现 某 些 城市 街区 (位 于 特定 纬度 和 经 度 
范围 内 ) 更 可 能 比 其 他 街区 住房 成 本 高 昂 ， 那 么 就 是 比 单独 使 用 两 个 特征 更 合适 。 

目前 , 特征 列 API 仅 支 持 交 叉 组 合 离散 特征 。 如 果 要 组 合 两 个 连续 的 值 (比如 latitude 或 

longitude)， 我 们 可 以 对 其 进行 分 桶 。 如 果 交 叉 组 合 latitude 和 longitude 特征 (例如 ,longitude 
被 分 到 2 个 分 桶 中 , 而 latitude 有 3 个 分 桶 ) ， 那 么 我 们 实际 上 会 得 到 6 个 交叉 组 合 的 二 值 特 
征 (binary feature) 。 当 我 们 训练 模型 时 ， 每 个 特征 都 会 分 别 获得 自己 的 权重 。 
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下 面 在 模型 中 添加 longitude 与 latitude 的 特征 组 合 ， 训 练 模型 ， 然 后 确定 结果 是 否 有 所 改 
善 。 我 们 使 用 TensorFlow API 的 crossed_column() 来 交叉 组 合 构建 特征 列 。 hash bucket size ix 
为 1000。 

















def construct feature columns(): 
"""Construct the TensorFlow Feature Columns. 


Returns: 
A set of feature columns 
"nn 
households - tf.feature column.numeric column ("households") 
longitude = tf.feature column.numeric column ("longitude") 
latitude = tf.feature column.numeric column ("latitude" 
housing median age - tf.feature column.numeric column("housing median age") 
median income - tf.feature column.numeric column("median income") 
rooms per person - tf.feature column.numeric column("rooms per person") 


# Divide households into 7 buckets. 
bucketized households - tf.feature column.bucketized column( 
households, boundaries-get quantile based boundaries( 
training examples["households"], 7)) 


# Divide longitude into 10 buckets. 
bucketized longitude - tf.feature column.bucketized column( 
longitude, boundaries-get quantile based boundaries( 
training examples["longitude"], 10)) 


# Divide latitude into 10 buckets. 
bucketized latitude - tf.feature column.bucketized column( 
latitude, boundaries-get quantile based boundaries( 
training examples["latitude"], 10)) 


# Divide housing median age into 7 buckets. 
bucketized housing median age - tf.feature column.bucketized column( 
housing median age, boundaries-get quantile based boundaries( 
training examples["housing median age"], 7)) 


# Divide median income into 7 buckets. 
bucketized median income - tf.feature column.bucketized column( 
median income, boundaries-get quantile based boundaries( 
training examples["median income"], 7)) 


# Divide rooms per person into 7 buckets. 
bucketized rooms per person - tf.feature column.bucketized column( 
rooms per person, boundaries-get quantile based boundaries( 
training examples["rooms per person"], 7)) 


# Make a feature column for the long x lat feature cross 


long x lat - tf.feature column.crossed column( 
set([bucketized longitude, bucketized latitude]), hash bucket size-1000) 
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feature columns - set([ 
bucketized longitude, 
bucketized latitude, 
bucketized housing median age, 
bucketized households, 
bucketized median income, 
bucketized rooms per person, 
long x lat]) 


return feature columns 


始 训练 模型 : 


= train model( 
learning rate-1.0, 
steps=500, 
batch size=100, 
feature columns=construct feature columns(), 
training examples=training examples, 
training targets=training targets, 
validation examples=validation examples, 
validation targets-validation targets) 


结果 如 图 9-7、 图 9-8 所 示 。 


Training model... 














RMSE (on training data): 


period 00 : 162.70 
period 01 : 134.54 
period 02 : 117.50 
period 03 : 106.27 
period 04 : 98.40 
period 05 : 92.55 
period 06 : 88.21 
period 07 : 84.75 
period 08 : 82.01 
period 09 : 79.73 


Model training finished 


图 9-7 训练 数据 
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Root Mean Squared Error vs. Periods 


— taining 


160 — validation 

140 
出 
g 2o 

100 

m 

0 2 4 6 8 
Periods 
图 9-8 训练 结果 


7.2 12 正则 化 


正则 化 在 机 器 学 习 领 域 很 重要 , 主要 是 针对 模型 过 拟 合 问题 而 提出 来 的 。 在 前 面 的 章节 中 ， 
我 们 一 直 在 探讨 如 何 让 训练 误差 降 至 最 低 。 对 于 正则 化 ,简单 来 说 , 就 是 不 要 过 于 信赖 训练 样 
本 。 如 图 9-9 所 示 ， 从 过 拟 合 曲线 可 以 看 出 : 随 着 进行 越 来 越 多 次 迭代 ， 训 练 误差 会 减少 ， 越 
来 越 少 ， 并 一 直 减 少 。 






Loss 
Validation Data 





Training Data 


lterations 


图 9-9 ERRA 


训练 数据 (Training Data) 曲线 会 不 断 下 降 ， 最 终 它 会 在 某 种 程度 上 收敛 于 底 端 。 但 实际 
上 验证 数据 (Validation Data) 曲线 开始 上 升 。 验 证 数据 是 我 们 真正 要 关注 的 。 尽 管 我 们 在 对 
训练 样本 进行 训练 ,但 想 要 泛 化 到 新 的 样本 ， 也 就 是 测试 样本 。 我 们 希望 将 样本 的 损失 控制 在 
较 低 的 范围 。 那 么 如 何 抑制 验证 数据 曲线 上 升 呢 ? 这 表示 什么 情况 呢 ? 首先 说 明 出 现 了 过 拟 
合 。 我 们 在 处 理 训练 数据 样本 方面 做 得 很 好 , 开始 在 某 种 程度 上 过 拟 合 训练 数据 样本 的 一 些 独 
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特 数据 。 

那么 该 如 何 处 理 过 拟 合 呢 ? 我 们 可 以 通过 正则 化 来 避免 过 拟 合 。 正 则 化 有 很 多 不 同 的 策 
略 。 其 中 一 种 策略 是 “ 早 停 法 ”， 也 就 是 在 训练 数据 的 效果 实际 收敛 前 停止 训练 。 尽 量 抵达 验 
证 数据 曲线 的 底 端 ， 这 是 一 种 常用 策略 , 但 实际 操作 起 来 可 能 有 些 困 难 。 其 他 正则 化 策略 包括 
尝试 添加 模型 复杂 度 惩罚 项 。 我 们 可 以 在 模型 训练 期 间 添加 模型 复杂 度 惩罚 项 。 

在 这 之 前 , 我 们 的 训练 仅 专注 于 一 个 重要 方面 ， 也 就 是 获取 正确 的 训练 样本 ， 最 大 程度 地 
减少 经 验 风 险 ， 即 经 验 风险 最 小 化 : 





minimize(Loss(Data|Model)) 


现在 引入 第 二 项 以 对 模型 复杂 度 进行 惩罚 : 
minimize(Loss(Data|Model) + complexity (Model)) 


这 称 为 结构 风险 最 小 化 〈structural risk minimization) 。 我 们 要 平衡 这 两 个 关键 因素 GR 
差 和 复杂 度 )， 确 保 获取 正确 的 训练 数据 ,但 又 不 过 度 信 赖 训练 数据 以 免 使 模型 过 于 复杂 。 那 
么 ,如 何 定义 模型 复杂 度 呢 ? 我 们 可 以 采用 多 种 方法 。 一 种 常见 的 策略 是 定义 一 个 基于 所 有 特 
征 权重 的 函数 。 这 个 方法 是 尽量 选择 较 小 的 权重 ， 也 就 是 使 参数 尽 可 能 小 ， 同 时 仍 能 获取 正确 
的 训练 样本 。 换 名 话说， 权重 越 高 ， 复 杂 度 越 高 。 

我 们 使 用 工 2 正则 化 公式 来 量化 模型 的 复杂 度 : 





L regularization term = ||w||; = w? + w3+...+w? 


上 面 定 义 了 一 个 正则 项 regularization term) ， 它 是 所 有 权重 的 平方 和 ， 用 于 衡量 模型 复 
杂 度 。 在 上 面 的 公式 中 ， 如 果 权 重 非 常 小 (比如 趋 近 于 0) ， 那 么 对 复杂 度 的 影响 很 小 。 离 群 
值 (outlier) 的 权重 一 般 对 复杂 度 影 响 大 。 假 定 我 们 有 以 下 权重 的 线性 模型 ; 


(wi 0.2, w» 0.5, ws 5, w4 1, w5 0.25, we 0.75} 








w? + 03 + 02 0$ we + o 

—0.2? + 0.5? + 5? + 1? + 0.257 + 0.75? 

=0.04 + 0.25 + 25+ 1 + 0.0625 + 0.5625 

=26.915 

所 以 ，L2 正则 化 项 为 26.915。 在 上 面 的 贡献 度 上 ， 我 们 发 现 ws 是 235， 基 本 上 贡献 了 最 
多 的 复杂 度 。 目 前 ， 我 们 在 训练 优化 方面 添加 了 两 项 : 第 一 项 是 训练 误差 ， 取 决 于 训练 数据 ; 
第 二 项 是 模型 复杂 度 。 第 二 项 与 数据 无 关 ， 只 是 要 简化 模型 。 在 实际 使 用 中 , 我们 把 这 两 项 通 
过 lambda 实现 了 平衡 ， 公 式 如 下 : 
minimize(Loss(Data|Model) + A complexity (Model)) 
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lambda 是 一 个 系数 ， 也 叫 regularization rate CEM) 。 这 代表 我 们 对 获取 正确 样本 ( 越 
正确 ， 训 练 误差 越 小 ， 越 拟 合 ) 与 简化 模型 的 关注 程度 之 比 ， 增 加 lambda 值 则 会 加 强 正则 化 
效果 。 一 般 而 言 ， 如 果 我 们 有 大 量 的 训练 数据 ， 训 练 数据 和 测试 数据 看 起 来 一 致 并且 统计 情 
况 呈 现 独 立 同 分 布 , 那么 可 能 不 需要 进行 多 少 正 则 化 。 如 果 训 练 数据 不 多 , 或 者 训练 数据 与 测 
试 数据 有 所 不 同 ,那么 可 能 需要 进行 大 量 正则 化 。 我 们 可 能 需要 利用 交 义 验证 , 或 使 用 单独 的 
测试 集 进 行 调整 。 

如 果 lambda 过 高 , 那么 模型 相对 简单 , 这 时 会 发 生 欠 拟 合 数 据 的 风险 。 如果 lambda 过 低 ， 
那么 模型 可 能 变 得 过 于 复杂 ， 这 时 会 发 生 过 拟 合 数据 的 风险 。 这 时 ， 模 型 过 于 拟 合 训练 数据 ， 
但 不 能 泛 化 到 新 的 数据 上 。 最 理想 的 lambda 的 值 是 使 得 模型 能 够 良好 地 泛 化 到 新 数据 上 。 当 
然 ， 理 想 值 是 依赖 于 数据 的 ， 需 要 多 次 调试 来 获得 。 总 之 ， 正 则 化 主要 是 用 来 降低 过 拟 合 的 
减少 过 拟 合 的 其 他 方法 有 增加 训练 集 数 量 等 。 对 于 数据 集 有 限 的 情况 , 防止 过 拟 合 就 是 降低 模 
型 的 复杂 度 ， 这 就 是 正则 化 。 








2.5 seg 


逻辑 回归 (Logistic Regression, LR) 模型 其 实 仅 在 线性 回归 的 基础 上 套用 了 一 个 逻辑 函 
数 , 但 也 由 于 这 个 逻辑 函数 ,使 得 逻辑 回归 模型 成 为 机 器 学 习 领 域 一 颗 泡 眼 的 明星 。 在 回归 模 
Hr, y 是 一 个 定性 变量 ， 比 如 y=0 或 1， 逻辑 回归 主要 应 用 于 研究 某 些 事件 发 生 的 概率 。 比 
如 ， 如 何 预测 硬币 抛 出 后 硬币 正面 朝 上 的 概率 ? 概率 为 0 到 1 之 间 的 值 。 这 就 是 罗 辑 回归 。 这 
是 一 种 非常 实用 的 预测 方法 , 我 们 经 常 将 这 种 方法 映射 到 分 类 任务 上 ,比如 想 确定 某 封 电子 邮 
件 是 否 是 垃圾 邮件 。 总 的 来 说 ， 逻 辑 回归 的 用 途 如 下 。 


e 预测: 根据 模型 ， 预 测 在 不 同 自 变 量 的 情况 下 , 发 生 某 种 疾病 或 菜 种 情况 的 概率 有 多 大 
e DD: 实际 上 跟 预 测 有 些 类 似 ， 也 是 根据 模型 ， 判 断 某 人 属于 某 种 疾病 或 属于 某 种 情 
况 的 概率 有 多 大 ， 也 就 是 看 一 下 这 个 人 有 多 大 的 可 能 性 属于 某 种 疾病 或 某 种 情况 。 


逻辑 回归 分 析 非 常 有 用 。 以 胃癌 病情 分 析 为 例 ， 选 择 两 组 人 群 ， 一 组 是 胃癌 组 ， 另 一 组 是 
非 胃 癌 组 ,两 组 人 群 必定 具有 不 同 的 体征 与 生活 方式 等 。 因此 ， 因 变量 就 为 是 否 患 有 胃癌 , 值 
为 “是 ”或 “ 否 ”， 自 变量 就 可 以 包括 很 多 了 ， 如 年 龄 、 性 别 、 饮 食 习 惯 、 幽 门 螺 杆菌 感染 等 。 
自 变量 既 可 以 是 连续 的 ， 也 可 以 是 分 类 的 。 然 后 通过 逻辑 回归 分 析 ， 可 以 得 到 自 变 量 的 权重 ， 
从 而 可 以 大 致 了 解 到 底 哪些 因素 是 导致 胃癌 的 危险 因素 。 同 时 , 通过 该 权 值 可 以 根据 危险 因素 
预测 一 个 人 患 癌症 的 可 能 性 。 

逻辑 回归 中 的 逻辑 函数 (或 称 为 Sigmoid 函数 ) 的 形式 为 : 


zd 
lte 








E 

















它 对 应 的 图 形 如 图 9-10 所 示 。 
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图 9-10 Sigmoid 函数 


上 述 函 数 可 以 提供 0-1 的 有 界 值 ， 两 边 有 渐 近 线 。 其 中 ，z=b+wixit+wzxzt...+WwXN。W 是 
模型 权重 ，b 是 偏差 ，x 是 特征 变量 。 所 以 ， 图 9-10 也 可 以 描述 为 如 图 9-11 所 示 的 曲线 。 


-(w, + wx, + WX, * 22 wax) 
图 9-11 Sigmoid 函数 
从 数学 的 角度 ， 我 们 还 可 以 得 出 如 下 公式 : 
y 
Iy 
下 面 我 们 来 看 一 个 例子 。 假 定 有 一 个 逻辑 回归 模型 ， 它 有 三 个 特征 变量 ， 权 重 和 偏差 是 
b=1，wi=2，w2=-1，wa=5。 假 定 我 们 有 一 个 样本 数据 进来 : xs=0，x=10，xs=2。 那 么 ， 我 们 
可 以 计算 出 z=(1) + (2)(0)+(-1)(10)+(5)(2)=1。 


z= log( 


1 
Y= Ire 074 


所 以 ， 概 率 为 73.1%， 如 图 9-12 所 示 。 


2IT 
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Probability 
Output 


-6 -4 -2 0 2 4 6 
UN APG DABS? oo LP) 
图 9-12 概率 为 73.1% 


在 训练 时 , 我 们 使 用 的 是 不 同 的 误差 函数 。 线 性 回归 用 的 是 平方 损失 。 而 逻辑 回归 使 用 的 

是 对 数 误差 函数 : 
Log Loss = Y^ -ylog(y)- (1— y)log(1 — y') 
(zy)eD 

其 中 ， (x,y) 属于 数据 集 ， 包 含 很 多 已 经 标签 了 的 样本 数据 ，y 是 标签 ，0 或 1。 对 于 给 
定 的 x, 是 预测 值 , 在 0 和 1 之 间 。 如 果 你 仔细 看 这 个 公式 就 会 发 现 , 它 看 起 来 很 像 Shannon 
信息 论 中 的 粹 测量 。 上 述 对 数 误差 函数 的 图 形 如 图 9-13 所 示 〈 如 果 不 好 理解 这 个 数学 公式 ， 
看 懂 图 就 行 了 ) 。 


ss» target value = 0.0 
ss» target value = 1.0 


* 


Log Loss 


. 
. 
. 


00 02 24 o os 16 


predicted value 
9-3 ”对 数 误差 函数 


图 9-13 表示 ， 越 接近 其 中 一 个 条 线 ， 误 差 就 会 变 得 越 大 ， 而 且 变化 速度 也 非常 惊人 。 我 
们 看 到 了 渐 近 线 的 作用 。 由 于 这 些 渐 近 线 的 存在 ， 我 们 需要 将 正则 化 纳入 机 器 学 习 中 。 否 则 ， 
在 指定 的 数据 集 上 ， 模 型 可 能 会 尽量 更 紧密 地 拟 合 数据 ， 努 力 让 这 些 误差 接近 0. L2 正则 化 
在 这 里 会 非常 有 用 ， 它 可 以 确保 权重 不 会 严重 失衡 。 

线性 逻辑 回归 很 流行 , 它 的 速度 非常 快 ， 能够 非常 高 效 地 进行 训练 和 预测 。 因此， 如果 我 
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们 需要 一 种 方法 来 很 好 地 扩展 到 海量 的 数据 ， 或 者 需要 将 某 种 方法 用 于 延迟 时 间 极 短 的 预测 ， 
那么 线性 逻辑 回归 可 谓 是 理想 之 选 。 如 果 我 们 需要 使 用 非 线性 逻辑 回归 , 则 可 以 通过 添加 特征 
交叉 乘积 来 实现 。 


9.4 5x 


分 类 (Classification) 是 一 种 重要 的 数据 挖掘 算法 。 分 类 的 目的 是 构造 一 个 分 类 函数 或 分 
类 模型 〈( 即 分 类 器 ) ， 通 过 分 类 器 将 数据 对 象 映 射 到 某 一 个 给 定 的 类 别 中 。 分 类 器 的 主要 评价 
指标 有 精确 率 (Precision) 、 召 回 率 (Recall) 、 准 确 率 (Accuracy) 、ROC、AOC 等 。 

我 们 想 利用 机 器 学 习 模型 进行 分 类 ， 比 如 邮件 是 不 是 垃圾 邮件 。 在 9.3 节 中 ， 我 们 可 以 将 
逻辑 回归 用 作 分 类 的 基础 。 例 如 ， 邮 件 为 垃圾 邮件 的 概率 超过 0.8， 我 们 可 能 就 会 将 其 标记 为 
垃圾 邮件 。0.8 就 是 分 类 阔 值 classification threshold) 。 那 么 ， 选 定 分 类 阔 值 之 后 ， 如 何 评估 
相应 模型 的 质量 呢 ? 

评估 分 类 效果 的 一 种 传统 方式 是 使 用 准确 率 , 它 指 的 是 正确 结果 数 除 以 总 数 , 就 是 正确 结 
果 所 占 的 百分比 。 值 得 注意 的 是 , 虽然 准确 率 是 一 种 非常 直观 且 广 泛 使 用 的 指标 , 但 它 也 有 一 
些 重大 缺陷 。 如 果 问 题 中 存在 类 别 不 平衡 的 情况 ,那么 准确 率 指标 的 效果 就 会 大 打折 扣 。 假设 
有 一 个 用 于 展示 广告 的 广告 点 击 率 的 预测 模型 ,我 们 要 尝试 使 用 准确 率 指 标 来 评估 此 模型 的 质 
量 。 对 于 展示 广告 ， 点 击 率 通 常 为 千 分 之 一 、 万 分 之 一 ， 甚 至 更 低 。 因 此 ， 可 能 存在 这 样 一 个 
模型 ， 这 个 模型 只 有 一 个 始终 预测 “ 假 ” 的 偏差 特征 。 这 个 始终 预测 “ 假 ”的 模型 预测 的 准确 
率 为 99.999%， 但 这 毫 无 意义 。 显 然 ， 准 确 率 并 不 适用 于 这 种 情况 。 

我 们 再 看 一 个 例子 , 虽然 准确 率 确实 是 一 个 很 好 、 很 直观 的 评价 指标 , 但 是 有 时 候 准 确 率 
高 并 不 能 代表 一 个 算法 就 好 。 比 如 某 个 地 区 某 天 地 震 的 预测 , 假设 有 一 堆 的 特征 作为 地 震 分 类 
的 属性 ， 类 别 只 有 两 个 ， 即 0: 不 发 生地 震 ; 1: 发 生地 震 。 一 个 不 加 思考 的 分 类 器 ， 对 每 一 
个 测试 用 例 都 将 类 别 划 分 为 0， 那么 它 就 可 能 达到 99% 的 准确 率 ， 但 真 的 地 震 来 临时 ， 这 个 分 
类 器 毫 无 察觉 ， 这 个 分 类 带 来 的 损失 是 巨大 的 。 为 什么 99% 准 确 率 的 分 类 器 却 不 是 我 们 想 要 
的 , 因为 这 里 数据 的 分 布 不 均衡 , 类别 1 的 数据 太 少 , 完全 错 分 类 别 1 依然 可 以 达到 很 高 的 准 
确 率 ， 却 忽视 了 我 们 关注 的 东西 。 接 下 来 详细 介绍 一 下 分 类 算法 的 评价 指标 。 


9.4.1 评价 指标 一 一 准确 率 
我 们 首先 介绍 几 个 常见 的 模型 评价 术语 。 假 设 我 们 的 分 类 目标 只 有 两 类 , 即 正 例 (Positive) 
和 人 负 例 (Negative) ， 分 别 如 下 。 
€ True Positives (TP) : 被 正确 地 划分 为 正 例 的 个 数 ， 即 实际 为 正 例 且 被 分 类 器 划分 为 
正 例 的 实例 数 (FAK) 。 
€ False Positives (FP) : 被 错误 地 划分 为 正 例 的 个 数 ， 即 实际 为 负 例 但 被 分 类 器 划分 
为 正 例 的 实例 数 。 
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€ False Negatives (EN) : 被 错误 地 划分 为 负 例 的 个 数 ， 即 实际 为 正 例 但 被 分 类 器 划分 
为 负 例 的 实例 数 。 
€ True Negatives (IN) : 被 正确 地 划分 为 负 例 的 个 数 ， 即 实际 为 负 例 且 被 分 类 器 划分 
为 负 例 的 实例 数 。 
这 里 只 要 记 住 True. False 描述 的 是 分 类 器 是 否 判断 正确 ，Positive、Negative 是 分 类 器 的 
分 类 结果 。 为 了 帮助 大 家 理解 , 我们 使 用 “ 狼 来 了 ”这 则 故事 。 假定 “ 狼 来 了 ”是 正 类 (Positive 
Class) ， 那 么 “ 狼 没 来 ”就 是 负 类 (Negative Class) 。 小 男孩 是 一 个 牧童 ， 狼 来 到 镇 上 ， 如 
果 他 正确 地 指出 来 ， 就 是 真正 例 。 他 看 到 了 狼 并 说 “ 狼 来 了 ”。 真 正 例 对 应 的 结果 是 小 镇 的 羊 
得 救 ， 这 很 好 。 假 正 例 则 是 小 男孩 说 “ 狼 来 了 ”， 但 其 实 并 没有 狼 。 这 就 是 假 正 例 ， 这 会 令 所 
有 人 非常 恼火 。 假 负 例 的 后 果 可 能 更 严重 。 假 负 例 对 应 的 情形 是 ， 狼 来 了 而 小 男孩 睡 着 了 或 没 
看 到 ， 狼 进入 镇 子 并 吃 掉 了 所 有 的 羊 。 这 可 真 的 太 惨 了 。 真 负 例 对 应 的 情形 是 小 男孩 没 喊 “ 狼 
来 了 ”， 狼 也 确实 没 出 现 ， 一 切 安 好 。 以 上 可 以 总 结 为 如 图 9-14 所 示 的 4 种 情况 。 


9-14 “ 狼 来 了 ”模型 的 4 种 情况 


我 们 可 以 将 这 些 预 期 情况 组 合成 几 个 不 同 的 指标 。 准 确 率 CAccuracy) 是 我 们 最 常见 的 评 
价 指标 ，Accuracy = (TP+TN) /所 有 样本 数 ， 这 个 很 容易 理解 ， 就 是 被 分 对 的 样本 数 除 以 所 有 
的 样本 数 。 通 常 来 说 ， 准 确 率 越 高 ， 分 类 器 越 好 。 所 有 样本 数 =TP+FP+FN+TN。 下 面试 着 计 
算 一 下 图 9-15 中 模型 的 准确 率 , 该 模型 将 100 个 肿瘤 分 为 恶性 〈 正 类 别 ) 或 良性 ( 负 类 别 ) 。 








图 9-15 肿瘤 模型 的 4 种 情况 


TP+TN 14-90 Sat 
ccurac: . 
Y= TP+TN+FP+FN 14904148 
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准确 率 为 0.91， 即 91% (总 共 100 个 样本 中 有 91 个 预测 正确 ) 。 这 表示 肿瘤 分 类 器 在 识 
别 恶 性 肿瘤 方面 表现 得 非常 出 色 , 对 吗 ? 实际 上 ， 只 要 我 们 仔细 分 析 一 下 正 类 别 和 负 类 别 ， 就 
可 以 更 好 地 了 解 模型 的 效果 。 在 100 个 肿瘤 样本 中 ，91 个 为 良性 (90 个 TN 和 1 个 FP) ,9 
个 为 恶性 (1 个 TP 和 8 个 FN) 。 在 91 个 良性 肿瘤 中 ， 该 模型 将 90 个 正确 识别 为 良性 。 这 很 
dij. Tob, dE 9 个 恶性 肿瘤 中 ， 该 模型 仅 将 1 个 正确 识别 为 恶性 。 这 是 多 么 可 怕 的 结果 ! 9 个 
恶性 肿瘤 中 有 8 个 未 被 诊断 出 来 ! 

虽然 91% 的 准确 率 可 能 乍 一 看 还 不 错 ， 但 如 果 另 一 个 肿瘤 分 类 器 模型 总 是 预测 良性 ， 那 
么 这 个 模型 使 用 我 们 的 样本 进行 预测 也 会 实现 相同 的 准确 率 (100 个 中 有 91 个 预测 正确 ) 。 
换言之 ， 我 们 的 模型 与 那些 没有 预测 能 力 来 区 分 恶性 肿瘤 和 良性 肿瘤 的 模型 差不多 。 

当 你 使 用 分 类 不 平衡 的 数据 集 〈 比 如 正 类 别 标签 和 负 类 别 标签 的 数量 之 间 存 在 明显 差异 ) 
时 , 单单 准确 率 一 项 并 不 能 反映 全 面 情况 。 所 以 , 我 们 需要 两 个 能 够 更 好 地 评估 分 类 不 平衡 问 
题 的 指标 : 精确 率 和 召回 率 。 


9.4.2 评价 指标 一 一 精确 率 


精确 率 (precision) 指标 尝试 回答 以 下 问题 : 在 被 识别 为 正 类 别 的 样本 中 ， 确 实 为 正 类 别 
的 比例 是 多 少 ? 以 前 面 的 狼 来 了 例子 为 例 ， 这 个 参数 的 意思 是 我 们 是 否 说 “ 狼 来 了 “ 太 多 了 。 
在 小 男孩 说 “ 狼 来 了 ”的 情况 中 ， 有 多 少 次 是 对 的 ? 他 说 “ 狼 来 了 ”的 精确 率 如 何 ? 
精确 率 的 定义 如 下 : 





TP 
TP4FP 


从 上 面 公式 看 出 ， 如 果 模 型 的 预测 结果 中 没有 假 正 例 ， 则 模型 的 精确 率 为 1.0。 让 我 们 来 
计算 一 下 上 一 部 分 中 用 于 分 析 肿瘤 的 机 器 学 习 模 型 的 精确 率 

TP 1 | 
TP-FP 1+1 
该 模型 的 精确 率 为 0.5， 也 就 是 说 ， 该 模型 在 预测 恶性 肿瘤 方面 的 精确 率 是 50%。 


9.4.3 ”指标 一 一 召回 率 


回答 问题 : 在 所 有 正 类 别 样本 中 , 被 正确 识别 为 正 类 别 的 比例 是 多 少 ? 以 前 面 的 “ 狼 来 了 ?” 
为 例 ， 这 个 参数 的 意思 是 我 们 错过 了 多 少 “ 狼 来 了 ”。 召回 率 指标 则 是 指 在 所 有 试图 进入 村 庄 
的 狼 中 ， 我 们 发 现 了 多 少 头 ? 从 数学 上 讲 ， 召 回 率 的 定义 如 下 

TP 
TP+FN 

从 上 面 的 公式 看 出 ， 如 果 模 型 的 预测 结果 中 没有 假 负 例 ， 则 模型 的 召回 率 为 1.0。 让 我 们 
计算 一 下 肿瘤 分 类 器 的 召回 率 : 


Precision — 


精确 率 = 0.5 








召回 率 = 
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TP 1 
aix 


CTPCFN 1+8 

该 模型 的 召回 率 是 0.11， 也 就 是 说 ， 该 模型 能 够 正确 识别 出 所 有 恶性 肿瘤 的 百分比 是 
11%. 

比如 前 面 讲 的 地 震 预测 ， 没 有 谁 能 准确 预测 地 震 的 发 生 ， 但 我 们 能 容忍 一 定 程度 的 误 报 ， 
假设 1000 次 预测 中 ， 有 5 次 预测 为 发 现 地 震 ， 其 中 一 次 真 的 发 生 了 地 震 ， 而 其 他 4 次 为 误 报 ， 
那么 准确 率 从 原来 的 999/1000X 100%=99.9% F KEF 996/1000X100%=99.6%， 但 召回 率 从 
0/1X100%=0% 上 升 为 11X100%=100%， 这 样 虽然 谎报 了 几 次 地 震 ， 但 真 的 地 震 来 临时 ， 我 
们 没有 错过 , 这 样 的 分 类 器 才 是 我 们 想 要 的 , 在 一 定 准确 率 的 前 提 下 , 我 们 要 求 分 类 器 的 召回 
率 尽 可 能 高 。 


9.444 评价 指标 之 综合 考虑 


要 全 面 评估 模型 的 有 效 性 ， 必 须 同时 检查 精确 率 和 召回 率 。 遗 憾 的 是 ,精确 率 和 召回 率 往 
往 是 此 消 彼 长 的 情况 。 也 就 是 说 ， 提 高 精确 率 通常 会 降低 召回 率 。 这 是 因为 ， 如 果 我 们 希望 在 
召回 率 方面 做 得 更 好 ， 那 么 即使 只 是 听 到 灌木 从 中 传 出 一 点 点 声响 ， 小 孩 也 说 “ 狼 来 了 ”。 
但 是 ， 如 果 我 们 希望 非常 精确 ， 那 么 正确 的 做 法 是 只 在 完全 确定 时 才 说 “ 狼 来 了 ”。 前 一 种 做 
法 会 降低 分 类 阔 值 ， 后 一 种 做 法 会 提高 分 类 闭 值 。 怎 么 在 这 两 个 方面 都 做 好 非常 重要 。 这 也 意 
味 着 ， 每 当 有 人 告诉 你 精确 率 是 多 少时 ， 还 需要 问 召回 率 是 多 少 ， 然 后 才能 评价 模型 的 优 劣 。 
我 们 再 来 看 几 个 例子 。 图 9-16 显示 了 电子 邮件 分 类 模型 做 出 的 30 项 预测 。 分 类 阔 值 右 侧 的 被 
归 类 为 “垃圾 邮件 ”， 左 侧 的 则 被 归 类 为 “ 非 垃圾 邮件 ”。 我 们 选择 特定 的 分 类 阔 值 后 ， 精 确 


0.11 





率 和 召回 率 值 便 都 可 以 确定 。 
分 类 阅 值 
e at 
| 1 | 实际 上 是 垃圾 邮件 
00 逻辑 回归 模型 的 输出 1.0 


9-6 ”电子 邮件 分 类 模型 的 30 项 预测 〈 见 下 载 资源 ) 
根据 图 9-16 所 示 的 结果 来 计算 精确 率 和 召回 率 ，4 种 情况 如 图 9-17 所 示 。 


图 9-17 四 种 情况 
精确 率 指 的 是 被 标记 为 垃圾 邮件 的 电子 邮件 中 正确 分 类 的 电子 邮件 所 占 的 百分比 ， 即 图 
中 浆 值 线 右 侧 的 绿 点 所 占 的 百分比 : 
TP 8 


Precision — =0.8 


TP+FP 8-2 
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召回 率 指 的 是 实际 垃圾 邮件 中 正确 分 类 的 电子 邮件 所 占 的 百分比 , 即 图 中 阔 值 线 右 侧 的 绿 
点 所 占 的 百分比 : 





TP 8 
Recall = 7p FN 843 07 


下 面 我 们 提高 分 类 阔 值 ， 看 看 产生 什么 样 的 效果 ， 如 图 9-18 所 示 。 


SRE 
AMA AAA MERE Ii. Dow 
NTNTNTNTNTNTNTNTNTNTNTN: FNTNENTN! NI TP e 3t ER: 件 
0.0 bee SR RH 10 


图 9-18 i855 25 a UR 


假 正 例 数量 会 减少 ,但 假 负 例 数量 会 相应 地 增加 。 结 果 ， 精 确 率 有 所 提高 ， 而 召回 率 则 有 
所 降低 ，4 种 情况 如 图 9-19 所 示 。 





图 9-19 4 种 情况 
TP 7 
Precision = TPLFP ~ 7417 0.88 
Recall = 1E m = 0.64 


TP+FN 7+4 


如 果 我 们 降低 分 类 阔 值 (从 最 初始 位 置 开始 ) ， 那 么 产生 的 效果 是 什么 样 的 呢 ?” 如 图 9-20 
所 示 。 


DRE 
$9999990000009090900000000009999 实际 上 不 是 垃圾 邮件 
L— TNTNTI BNINTNEAN INTERN ERSTE TP FP TP FP TP TP TP TP TP “| @@ 实际 上 是 垃圾 邮件 
0.0 逻辑 回归 模型 的 输出 10 


9-20 ”降低 分 类 阔 值 后 的 效果 


假 正 例 数量 会 增加 ， 而 假 负 例 数量 会 减少 。 结 果 这 一 次 ， 精 确 率 有 所 降低 ， 而 召回 率 则 有 
所 提高 ，4 种 情况 如 图 9-21 所 示 。 


图 9-21 4 种 情况 
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Precision = TE. 9 = 0.75 


TP+FP 9-3 
TP 9 


Recall = 75 EN (942 


= 0.82 


AUTRE CU AG Pa Se R38 HS 4) AL Gr EL e A Se IF V P EH PS BER 
评估 我 们 的 模型 。 另 外 ， 有 一 个 指标 可 以 衡量 模型 在 所 有 可 能 的 分 类 闭 值 下 的 效果 。 该 指标 称 
为 ROC 曲线 ， 即 “接收 者 操作 特征 曲线 ”。 


94.5 ROC 曲线 

ROC 曲线 (接收 者 操作 特征 曲线 ) 是 一 种 显示 分 类 模型 在 所 有 分 类 闭 值 下 的 效果 的 图 表 。 
该 曲线 绘制 了 以 下 两 个 参数 : 

e 真正 例 率 。 

e RED, 

真正 例 率 (TPR) 是 召回 率 的 同义词 ， 因 此 定义 如 下 : 

TP 
TPR- RN 


TRP 也 叫 灵敏 度 ， 表 示 所 有 正 例 中 被 分 对 的 比例 ， 衡 量 了 分 类 器 对 正 例 的 识别 能 力 。 假 
正 例 率 (FPR) 的 定义 如 下 : 


FP 


FERC FP+TN 


假 正 例 率 计算 的 是 分 类 器 错 认为 正 类 的 负 实例 占 所 有 负 实例 的 比例 。 

ROC 曲线 由 两 个 变量 绘制 。 横 坐标 是 假 正 例 率 ， 纵 坐标 是 真正 例 率 。ROC 曲线 用 于 绘制 
采用 不 同 分 类 阔 值 时 的 真正 例 率 与 假 正 例 率 。 有 具体 做 法 是 : 我 们 对 每 个 可 能 的 分 类 阔 值 进行 评 
Jii, 并 观察 相应 阔 值 下 的 真正 例 率 和 假 正 例 率 。 然后 绘制 一 条 曲线 将 这 些 点 连接 起 来 。 图 9-22 
显示 了 一 个 典型 的 ROC 曲线 。 





0 FPE 1 


图 9-22 不同 分 类 阔 值 下 的 真正 例 率 与 假 正 例 率 


284 


#98 TensorFlow 高 级 知识 


降低 分 类 闭 值 会 导致 将 更 多 样本 归 为 正 类 别 ， 从 而 增加 假 正 例 和 真正 例 的 个 数 。 我 们 在 上 
面 提 到 ， 为 了 计算 ROC 曲线 上 的 点 ， 可 以 使 用 不 同 的 分 类 阔 值 多 次 评估 逻辑 回归 模型 ， 但 
这 样 做 效率 非常 低 。 幸 运 的 是 ， 有 一 种 基于 排序 的 高 效 算 法 可 以 为 我 们 提供 此 类 信息 ， 这 种 算 
法 称 为 曲线 下 面积 。 曲 线 下 面积 表示 “ROC 曲线 下 面积 (Area Under the ROC Curve, AUC) ”。 
也 就 是 说 ， 曲 线 下 面积 测量 的 是 从 (0.0) 到 (1.1) 整 个 ROC 曲线 以 下 的 整个 二 维 面积 。 

借助 曲线 下 面积 , 我 们 可 以 有 效 解读 概率 。 如 果 要 拿 一 个 随机 正 分 类 样本 , 闭 上 眼睛 从 分 
布 区 域 中 拿 起 一 个 , 再 拿 起 一 个 随机 负 分 类 样本 , 则 模型 正确 地 将 较 高 分 数 分 配给 正 分 类 样本 
而 非 负 分 类 样本 的 概率 是 多 少 ? 在 某 种 意义 上 ， 出 现 配 对 顺序 不 正确 的 概率 是 多 少 ? 结果 表 
明 ， 这 个 概率 正好 等 于 ROC 曲线 下 面积 代表 的 概率 值 。 因 此 ， 如 果 看 到 ROC 曲线 下 面积 的 
值 是 0.9， 那 么 这 就 是 得 出 正确 的 配对 比较 结果 的 概率 。 

















9.4.6 ”预测 偏差 


预测 偏差 是 通过 将 我 们 预测 的 所 有 项 的 总 和 与 观察 到 的 所 有 项 的 总 和 进行 比较 来 定义 的 。 
总 的 来 说 , 我 们 希望 预测 的 预期 值 与 观察 到 的 值 相等 。 如 果 不 相等 , 则 称 模型 存在 一 定 的 偏差 。 
偏差 为 0 表示 预测 值 的 总 和 与 观察 值 的 总 和 相等 。 

逻辑 回归 预测 应 当 无 偏差 ， 即 “预测 平均 值 ” 应 当 约 等 于 “观察 平均 值 ”。 预 测 偏差 指 的 
是 这 两 个 平均 值 之 间 的 差 值 ， 即 预测 偏差 = 〈 预测 平均 值 - 数据 集中 相应 标签 的 平均 值 ) 。 如 
果 出 现 非常 高 的 非 零 预测 偏差 , 则 说 明 模 型 某 处 存在 错误 , 因为 这 表明 模型 对 正 类 别 标签 的 出 
现 频率 预测 有 误 。 例 如 ， 假 设 所 有 电子 邮件 中 平均 有 1% 的 邮件 是 垃圾 邮件 。 一 个 出 色 的 垃 
圾 邮件 模型 应 该 预测 到 电子 邮件 平均 有 1% 的 可 能 性 是 垃圾 邮件 换言之， 如果 我 们 计算 单 
个 电子 邮件 是 垃圾 邮件 的 预测 可 能 性 的 平均 值 ， 则 结果 应 该 是 1%) 。 然 而 ， 如 果 该 模型 预测 
电子 邮件 是 垃圾 邮件 的 平均 可 能 性 为 20%, 那么 我 们 可 以 得 出 结论 , 该 模型 出 现 了 预测 偏差 。 
如 果 某 个 模型 偏差 不 为 零 ， 则 意味 着 可 能 存在 问题 ， 告 知 我 们 需要 探究 某 些 方面 来 调试 模型 。 

逻辑 回归 可 预测 0~1 的 值 。 不 过 ， 所 有 带 标签 样本 都 正好 是 0( 例 如 ，0 表示 “ 非 垃圾 邮 
件 ”) 或 1 (例如 ，1 表示 “垃圾 邮件 ”) 。 因 此 ， 在 检查 预测 偏差 时 ， 无 法 仅 根据 一 个 样本 
准确 地 确定 预测 偏差 ， 必须 在 “一 大 桶 ”样本 中 检查 预测 偏差 。 也 就 是 说 ， 只 有 将 足够 的 样本 
组 合 在 一 起 ， 以 便 能 够 比较 预测 值 ( 例 如 0.392) 与 观察 值 ( 例 如 0.394) ， 逻 辑 回归 的 预测 
偏差 才 有 意义 。 所 以 ， 我 们 通过 以 下 方式 构建 桶 : 

@ ”以 线性 方式 分 解 目标 预测 。 

e HEMI. 

请 看 以 下 某 个 特定 模型 的 校准 曲线 见 图 9-23，。 每 个 点 表示 包含 1000 个 值 的 分 桶 。 黄 
个 轴 具 有 以 下 含义 : 


€ x 轴 表 示 模 型 针对 该 桶 预测 的 平均 值 。 
€ y 轴 表 示 该 桶 的 数据 集中 的 实际 平均 值 。 


两 个 轴 均 采用 对 数 尺 度 。 
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-8.000 -7.000 -6.000 -5.000 -4.000 -3.000 


图 9-23 ”预测 偏差 曲线 〈 对 数 尺度 ) 


在 上 面 的 例子 中 ,对 于 校准 曲线 , 我 们 采集 多 组 数据 ， 将 数据 分 桶 处 理 ,， 然 后 比较 相应 桶 
中 各 项 数据 的 平均 预测 值 与 平均 观察 值 。 显 然 ， 我 们 需要 大 量 分 桶 数据 才能 使 校准 有 意义 。 


9.4.7 分 类 代码 实例 


在 前 面 的 例子 中 ,房屋 中 位 价 median. house value 是 一 个 数字 特征 , 包含 连续 的 数字 。 下 
面 使 用 分 类 阀 值 ( 比 如 7596) 把 连续 值 变 成 布尔 值 ， 所 有 超过 阀 值 的 就 被 标记 为 1， 其 他 的 就 
是 0。 我 们 的 模型 要 预测 某 一 个 城市 街区 是 否 是 高 房价 街区 。 

我 们 先 装载 数据 集 : 


import math 





from IPython import display 

from matplotlib import cm 

from matplotlib import gridspec 

from matplotlib import pyplot as plt 
import numpy as np 

import pandas as pd 

from sklearn import metrics 

import tensorflow as tf 

from tensorflow.python.data import Dataset 


tf.logging.set verbosity(tf.logging.ERROR) 
pd.options.display.max rows = 10 


pd.options.display.float format = '[:.1f)'.format 


california housing dataframe — 
pd.read csv("https://storage.googleapis.com/mledu-datasets/california housing | 
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train.csv", sep-",") 


california housing dataframe = california housing dataframe.reindex( 
np.random. permutation (california housing dataframe.index)) 


DY RARE 75% 所 对 应 的 房价 大 概 是 265000。 下 面 的 代码 用 于 创建 一 个 二 元 标签 
median house value is high 来 判断 是 否 为 高 价 房 。 


def preprocess features (california housing dataframe) : 
"""Prepares input features from California housing data set. 


Args: 
california housing dataframe: A Pandas DataFrame expected to contain data 
from the California housing data set. 
Returns: 
A DataFrame that contains the features to be used for the model, including 
synthetic features. 
"nn 
selected features - california housing dataframe[ 
["latitude", 
"longitude", 
"housing median age", 
"total rooms", 
"total bedrooms", 
"population", 
"households", 
"median income"]] 
processed features - selected features.copy() 
# Create a synthetic feature. 
processed features["rooms per person"] - ( 
california housing dataframe["total rooms"] / 
california housing dataframe["population"]) 
return processed features 


def preprocess targets(california housing dataframe): 
"""Prepares target features (i.e., labels) from California housing data set. 


Args: 
california housing dataframe: A Pandas DataFrame expected to contain data 
from the California housing data set. 
Returns: 


A DataFrame that contains the target feature. 
n 





output targets = pd.DataFrame () 
# Create a boolean categorical feature representing whether the 
# median house value is above a set threshold. 
output targets ["median house value is high"] = ( 
california housing dataframe["median house value"] > 265000) .astype (float) 
return output targets 
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创建 训练 数据 集 和 评估 数据 集 如 下 : 


# Choose the first 12000 (out of 17000) examples for training. 

training examples = 

preprocess features(california housing dataframe.head(12000)) 

training targets = preprocess targets (california housing dataframe.head (12000) ) 


# Choose the last 5000 (out of 17000) examples for validation. 
validation examples - 

preprocess features(california housing dataframe.tail(5000)) 
validation targets - 

preprocess targets (california housing dataframe.tail(5000)) 


# Double-check that we've done the right thing. 
print "Training examples summary:" 
display.display(training examples.describe()) 
print "Validation examples summary:" 
display.display(validation examples.describe()) 


print "Training targets summary:" 
display.display(training targets.describe()) 
print "Validation targets summary:" 
display.display(validation targets.describe()) 


结果 如 图 9-24~ 图 9-27 所 示 。 


Training examples sum. 
latitude longitude housing median age total rooms total bedrooms population households median income rooms per person 





count 120000 120000 12000.0 12000.0 12000.0 12000.0 12000.0 12000.0 12000.0 
mean 356 -119.6 28.6 2636.4 536.3 1420.0 498.8 3.9 20 
std 21 2.0 126 2181.1 419.0 1095.7 3817 19 14 
min 325 -124.3 10 20 20 6.0 20 0.5 0.1 
25% 33.9 -121.8 18.0 1458.0 295.0 790.8 280.0 26 15 
50% 34.2 -118.5 29.0 2119.5 430.0 1160.0 406.0 3.5 19 
75% 377 -118.0 37.0 3127.2 647.0 1710.2 603.0 48 23 
max 420 -114.3 52.0 32054.0 5290.0 15507.0 5050.0 15.0 52.0 


图 9-24 训练 示例 概括 


Validation examples summa: 





latitude longitude housing median age total rooms total bedrooms population households median income rooms per person 


count 5000.0 5000.0 5000.0 5000.0 5000.0 5000.0 5000.0 5000.0 5000.0 
mean 356 -119.6 28.6 2661.0 546.8 1452.5 507.1 39 20 
std 21 20 126 2177.3 4275 1264.2 391.2 19 12 
min 325 -124.2 2.0 8.0 1.0 3.0 1.0 0.5 0.0 
25% 33.9 -121.8 18.0 1469.8 300.8 787.8 284.0 26 15 
50% 343 -118.5 28.0 2145.0 4440 1183.0 416.0 3.5 19 
7596 377 -118.0 37.0 3190.2 652.0 1758.5 608.0 47 23 
max 419 -114.5 52.0 37937.0 6445.0 35682.0 6082.0 15.0 55.2 


图 9-25 ”验证 示例 概括 
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Training targets summary: Validation targets summar 
median_house_value_is_high median house value is high 
count 12000.0 count 5000.0 
mean 0.2 mean 0.3 
std 0.4 std 04 
min 0.0 min 0.0 
25% 0.0 25% 0.0 
50% 0.0 50% 0.0 
75% 0.0 75% 1.0 
max 1.0 max 1.0 

图 9-26 训练 目标 概括 图 9-27 验证 目标 概括 





下 面 比较 线性 回归 和 妇 辑 回归 的 效果 。 下 面 的 代码 是 训练 基于 线性 回归 的 模型 。 这 个 模型 
使 用 值 为 {0，1} 的 标签 ， 然 后 预测 连续 值 。 


def construct feature columns (input features): 
"""Construct the TensorFlow Feature Columns. 














Args: 
input features: The names of the numerical input features to use. 
Returns: 
A set of feature columns 
"nn 
return set([tf.feature column.numeric column(my feature) 
for my feature in input features]) 


def my input fn(features, targets, batch size-1, shuffle-True, num epochs-None): 
"""Trains a linear regression model. 


Args: 
features: pandas DataFrame of features 
targets: pandas DataFrame of targets 
batch size: Size of batches to be passed to the model 
shuffle: True or False. Whether to shuffle the data. 
num epochs: Number of epochs for which data should be repeated. None - repeat 
indefinitely 
Returns: 
Tuple of (features, labels) for next data batch 


# Convert pandas data into a dict of np arrays. 
features = {key:np.array(value) for key,value in dict(features).items()] 


# Construct a dataset, and configure batching/repeating. 
ds = Dataset.from tensor slices((features,targets)) # warning: 2GB limit 
ds = ds.batch(batch size).repeat (num epochs) 


# Shuffle the data, if specified. 


if shuffle: 
ds = ds.shuffle(10000) 
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# Return the next batch of data. 
features, labels - ds.make one shot iterator().get next() 
return features, labels 


def train linear regressor model( 
learning rate, 
steps, 
batch size, 
training examples, 
training targets, 
validation examples, 
validation targets): 
"""Trains a linear regression model. 


In addition to training, this function also prints training progress information, 
as well as a plot of the training and validation loss over time. 


Args: 

learning rate: A ^float', the learning rate. 

steps: A non-zero "int', the total number of training steps. A training step 
consists of a forward and backward pass using a single batch. 

batch size: A non-zero ‘int*, the batch size. 

training examples: A "DataFrame' containing one or more columns from 
"california housing dataframe' to use as input features for training. 

training targets: A "DataFrame' containing exactly one column from 
"california housing dataframe' to use as target for training. 

validation examples: A ^"DataFrame' containing one or more columns from 
"california housing dataframe^ to use as input features for validation. 

validation targets: A "DataFrame' containing exactly one column from 
"california housing dataframe' to use as target for validation. 


Returns: 


A ^LinearRegressor' object trained on the training data. 
"nn 


periods - 10 
steps per period - steps / periods 


# Create a linear regressor object. 
my optimizer = tf.train.GradientDescentOptimizer(learning rate-learning rate) 
my optimizer = tf.contrib.estimator.clip gradients by norm(my optimizer, 5.0) 
linear regressor - tf.estimator.LinearRegressor( 
feature columns-construct feature columns(training examples), 
optimizer-my optimizer 


) 


# Create input functions. 
training input fn - lambda: my input fn(training examples, 


training targets["median house value is high"], 
batch size-batch size) 
predict training input fn = lambda: my input fn(training examples, 
training targets["median house value is high"], 


num epochs-1, 
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shuffle-False) 
predict validation input fn - lambda: my input fn(validation examples, 


validation targets["median house value is high"], 
num epochs-1, 
shuffle-False) 


# Train the model, but do so inside a loop so that we can periodically assess 
# loss metrics. 
print "Training model..." 
print "RMSE (on training data) :" 
training rmse = [] 
validation rmse = [] 
for period in range (0, periods): 
# Train the model, starting from the prior state. 
linear regressor.train( 
input fn=training input fn, 
steps=steps per period 
) 


# Take a break and compute predictions. 

training predictions = 
linear regressor.predict (input fn=predict training input fn) 

training predictions = np.array([item['predictions'][0] for item in 
training predictions]) 


validation predictions = 
linear regressor.predict(input fn=predict validation input fn) 
validation predictions = np.array([item['predictions'][0] for item in 
validation predictions]) 


# Compute training and validation loss. 
training root mean squared error = math.sqrt( 
metrics.mean squared error (training predictions, training targets) ) 
validation root mean squared error = math.sqrt ( 
metrics.mean squared error (validation predictions, validation targets) ) 
# Occasionally print the current loss. 
print " period $02d : $0.2f" $ (period, training root mean squared error) 
# Add the loss metrics from this period to our list. 
training rmse.append(training root mean squared error) 
validation rmse.append(validation root mean squared error) 
print "Model training finished." 


# Output a graph of loss metrics over periods. 
plt.ylabel ("RMSE") 

plt.xlabel ("Periods") 

plt.title("Root Mean Squared Error vs. Periods") 
plt.tight layout () 

plt.plot (training rmse, label="training") 
plt.plot (validation rmse, label="validation") 
plt.legend() 


return linear regressor 


linear regressor - train linear regressor model( 
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learning rate=0.000001, 

steps=200, 

batch size=20, 

training examples=training examples, 
training targets=training targets, 
validation examples=validation examples, 
validation targets-validation targets) 


结果 如 图 9-28、 图 9-29 所 示 。 


Training model... 
RMSE (on training data): 








period 00 : 0.45 
period 01 : 0.45 
period 02 : 0.44 
period 03 : 0.44 
period 04 : 0.44 
period 05 : 0.44 
period 06 : 0.44 
period 07 : 0.44 
period 08 : 0.44 
period 09 : 0.44 
Model training finished. 
图 9-28 训练 数据 
Root Mean Squared Error vs. Periods 
0452 一 taining 
一 validation 
0450 
0448 
y 046 
到 
0444 
0442 
0440 
0438 
0 2 4 6 8 
Periods 
图 9-29 训练 结果 


线性 回归 使 用 工 2 误差 。 当 把 输出 结果 转化 为 概率 时 , 它 不 能 很 好 地 惩罚 分 类 错误 的 情况 。 





比如 , 如 果 把 一 个 负 例 分 类 为 正 例 , 那么 0.9 的 概率 和 0.9999 的 概率 应 该 有 很 大 的 





区 别 .但 是 ， 


L2 误差 无 法 很 强 地 区 分 这 两 种 情况 。 如 果 我 们 使 用 LogLoss， 那 么 会 对 分 类 错误 产生 更 重 的 


惩罚 : 
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LogLoss— M; —y- log(Yprea) — (1 — y) - log(1 — Yprea) 
(z,y)eD 
下 面 我 们 使 用 LinearRegressor.predict 来 获得 预测 值 ， 然 后 使 用 这 个 值 和 标签 值 来 计算 
LogLoss。 其 代码 如 下 : 


predict validation input fn = lambda: my input fn(validation examples, 


validation targets["median house value is high"], 
num epochs=1, 
shuffle-False) 


validation predictions = 

linear regressor.predict(input fn-predict validation input fn) 
validation predictions - np.array([item['predictions'][0] for item in 
validation predictions]) 


_ = plt.hist(validation predictions) 


结果 如 图 9-30 所 示 。 


4 0 1 2 3 
9-30 计算 LogLoss 的 结果 


下 面 使 用 逻辑 回归 。 我 们 将 LinearRegressor 替换 为 LinearClassifier。 当 在 LinearClassifier 
模型 上 运行 tain0 和 predict0 时 ，predictions["probabilities"] 的 probabilities 键 是 预测 的 概率 值 。 
我 们 还 使 用 sklearn 的 log loss 函数 来 计算 这 些 概 率 的 LogLoss， 代 码 如 下 : 


def train linear classifier model( 
learning rate, 
steps, 
batch size, 
training examples, 
training targets, 
validation examples, 
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validation targets): 
"""Trains a linear classification model. 


In addition to training, this function also prints training progress information, 
as well as a plot of the training and validation loss over time. 


Args: 

learning rate: A ^float', the learning rate. 

steps: A non-zero “int*, the total number of training steps. A training step 
consists of a forward and backward pass using a single batch. 

batch size: A non-zero `int`, the batch size. 

training examples: A "DataFrame' containing one or more columns from 
"california housing dataframe' to use as input features for training. 

training targets: A "DataFrame' containing exactly one column from 
"california housing dataframe' to use as target for training. 

validation examples: A ^DataFrame' containing one or more columns from 
"california housing dataframe' to use as input features for validation. 

validation targets: A "DataFrame' containing exactly one column from 
"california housing dataframe' to use as target for validation. 


Returns: 


A "LinearClassifier' object trained on the training data. 
"nn 


periods - 10 
steps per period - steps / periods 


# Create a linear classifier object. 
my optimizer - tf.train.GradientDescentOptimizer(learning rate-learning rate) 
my optimizer - tf.contrib.estimator.clip gradients by norm(my optimizer, 5.0) 
linear classifier - tf.estimator.LinearClassifier( 
feature columns-construct feature columns(training examples), 
optimizer-my optimizer 


# Create input functions. 
training input fn - lambda: my input fn(training examples, 


training targets["median house value is high"], 
batch size-batch size) 
predict training input fn = lambda: my input fn(training examples, 


training targets["median house value is high"], 
num epochs=1, 
shuffle=False) 
predict validation input fn = lambda: my input fn(validation examples, 


validation targets["median house value is high"], 


num epochs=1, 
shuffle=False) 
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# Train the model, but do so inside a loop so that we can periodically assess 
# loss metrics. 
print "Training model..." 
print "LogLoss (on training data):" 
training log losses - [] 
validation log losses - [] 
for period in range (0, periods): 
# Train the model, starting from the prior state. 
linear classifier.train( 
input fn-training input fn, 
steps=steps per period 
) 
# Take a break and compute predictions. 
training probabilities = 
linear classifier.predict (input fn=predict training input fn) 
training probabilities = np.array([item['probabilities'] for item in 
training probabilities] ) 


validation probabilities = 
linear classifier.predict (input fn=predict validation input fn) 
validation probabilities = np.array([item['probabilities'] for item in 
validation probabilities]) 


training log loss = metrics.log loss(training targets, 
training probabilities) 
validation log loss = metrics.log loss(validation targets, 
validation probabilities) 
# Occasionally print the current loss. 
print " period $02d : $0.2f" $ (period, training log loss) 
# Add the loss metrics from this period to our list. 
training log losses.append(training log loss) 
validation log losses.append(validation log 1oss) 
print "Model training finished." 


# Output a graph of loss metrics over periods. 
plt.ylabel ("LogLoss") 

plt.xlabel ("Periods") 

plt.title("LogLoss vs. Periods") 

plt.tight layout () 

plt.plot (training log losses, label="training") 
plt.plot (validation log losses, label="validation") 
plt.legend() 


return linear classifier 


开始 训练 : 


linear classifier = train linear classifier model( 
learning rate-0.000005, 
steps-500, 
batch size-20, 
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training examples=training examples, 
training targets=training targets, 
validation examples=validation examples, 
validation targets=validation targets) 


结果 如 图 9-31、 图 9-32 所 示 。 


Training model... 
LogLoss (on training data): 
period 00 : 0.62 
period 01 : 0.58 
period 02 : 0.58 
period 03 : 0.56 


period 04 : 0.55 
period 05 : 0.53 
period 06 : 0.53 


period 07 : 0.53 

period 08 : 0.52 

period 09 : 0.52 
Model training finished. 


9-31 训练 数据 


LogLoss vs. Periods 





062 — taning 
— valdation 
060 
058 
2 
8 
056 
054 
052 
0 2 4 6 8 
Periods 


图 9-32 训练 结果 
分 类 的 几 个 评价 指标 有 准确 率 、ROC 曲线 、AUC (ROC 曲线 下 面积 ) 等 。 下 面 的 代码 使 
用 LinearClassifier.evaluate 来 计算 一 些 指 标 值 : 


evaluation metrics = 

linear classifier.evaluate (input fn=predict validation input fn) 

print "AUC on the validation set: $0.2f" $ evaluation metrics['auc'] 

print "Accuracy on the validation set: $0.2f" $ evaluation metrics['accuracy'] 


结果 如 图 9-33 所 示 。 


296 


第 9 章 TensorFlow 高 级 知识 


AUC on the validation set: 0.72 
Accuracy on the validation set: 0.75 


图 9-33 一 些 指标 值 的 计算 结果 


为 了 画 出 ROC 曲线 ， 我 们 使 用 skleam 的 roc. curve 来 获得 真正 例 和 假 正 例 的 比率 。 其 代 
码 如 下 : 


validation probabilities = 

linear classifier.predict(input fn-predict validation input fn) 

# Get just the probabilities for the positive class. 

validation probabilities - np.array([item['probabilities'][1] for item in 
validation probabilities]) 


false positive rate, true positive rate, thresholds - metrics.roc curve( 
validation targets, validation probabilities) 

plt.plot(false positive rate, true positive rate, label-"our model") 

plt.plot([O, 1], [0, 1], label-"random classifier") 

_ = plt.legend(10c-2) 


结果 如 图 9-34 所 示 。 


10 — ow model 
— random classifier 


08 
06 
04 
02 


00 
ao 02 04 06 08 10 


934 ”获得 真正 例 和 假 正 例 的 比率 


下 面 调整 一 些 参数 ， 看 看 能 否 改 进 AUC。 一 种 方法 是 增加 迭代 的 次 数 ， 另 一 种 方法 是 加 
大 批 处 理 大 小 。 


linear classifier = train linear classifier model( 
learning rate-0.000003, 
steps=20000, 
batch size=500, 
training examples=training examples, 
training targets=training targets, 
validation examples=validation examples, 
validation targets=validation targets) 


evaluation metrics = 
linear classifier.evaluate(input fn-predict validation input fn) 
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print "AUC on the validation set: $0.2f" $ evaluation metrics['auc'] 
print "Accuracy on the validation set: $0.2f" $ evaluation metrics['accuracy'] 


结果 如 图 9-35、 图 9-36 所 示 。 


Training model... 
LogLoss (on training data): 
period 00 : 0.49 
period 01 : 0.47 
period 02 : 0.47 
period 03 : 0.46 
period 04 : 0.46 
period 05 : 0.46 
period 06 : 0.46 
period 07 : 0.46 
period 08 : 0.46 
period 09 : 0.46 
Model training finished. 
AUC on the validation set: 0.80 
Accuracy on the validation set: 0.78 


9-35 训练 数据 


LogLoss vs. Periods 








051 — traning 

一 validaton 
050 
049 
了。 
047 
046 

0 2 4 6 8 
Periods 


9-36 训练 结果 


9.5 L1 正则 化 


我 们 再 来 研究 一 下 特征 交叉 组 合 (Feature Cross) 。 特 征 交叉 组 合 很 有 用 ， 但 也 可 能 会 带 
来 一 些 问题 ， 尤 其 是 将 稀疏 特征 交叉 组 合 起 来 的 时 候 。 稀 疏 矢 量 通常 包含 许多 维度 ， 创 建 特 征 
交叉 组 合 会 导致 包含 更 多 维度 。 由 于 使 用 此 类 高 维度 特征 矢量 ， 因 此 模型 可 能 会 非常 庞大 , 并 
且 需 要 大 量 的 RAM。 在 高 维度 稀疏 矢量 中 ， 最 好 尽 可 能 使 权重 正好 降 至 0。 正 好 为 0 的 权重 
基本 上 会 使 相应 特征 从 模型 中 移 除 。 将 特征 权重 设 为 0 可 节省 RAM 空间 ， 且 可 以 减少 模型 
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中 的 噪点 。 例 如 ， 以 一 个 涵盖 全 世界 〈 不 只 是 涵盖 加 州 ) 的 住房 数据 集 为 例 。 如 果 按 分 (每 度 
为 60 分 ) 对 全 球 纬度 进行 分 桶 ， 则 在 一 次 稀 玻 编码 过 程 中 会 产生 大 约 1 万 个 维度 ， 如 果 按 分 
对 全 球 经 度 进行 分 桶 , 则 在 一 次 稀 跑 编码 过 程 中 会 产生 大 约 2 万 个 维度 。 这 两 种 特征 的 特征 交 
又 组 合 会 产生 大 约 2 亿 个 维度 。 这 2 亿 个 维度 中 , 很 多 维度 代表 非常 有 限 的 居住 区 域 (例如 海 
洋 里 ) ， 很 难 使 用 这 些 数据 进行 有 效 泛 化 。 如 果 为 这 些 不 需要 的 维度 浪费 RAM， 就 太 不 值得 
了 。 因 此 ， 最 好 使 无 意义 维度 的 权重 正好 降 至 0。 

从 上 面 的 例子 可 以 看 出 ,即便 我 们 拥有 大 量 的 训练 数据 ,但 其 中 仍 有 许多 组 合 会 非常 罕见 ， 
因此 我 们 最 终 可 能 会 得 到 一 些 噪声 系数 ,并 可 能 遇 到 过 拟 合 问题 。 可 想 而 知 ， 如 果 遇 到 过 拟 合 
问题 ， 我 们 就 要 进行 正则 化 。 遗 憾 的 是 ，L2 正则 化 不 能 完成 此 任务 。L2 正则 化 可 以 使 权重 变 
小 ， 但 是 并 不 能 使 它们 正好 为 0。 

那么 , 能 不 能 以 特定 方式 进行 正则 化 ， 既 能 缩减 模型 大 小 ， 又 能 降低 内 存 使 用 量 呢 ?我 们 
要 做 的 就 是 将 部 分 权重 设 为 0， 这 样 就 不 必 处 理 其 中 的 一 些 特定 组 合 了 。 这 样 既 节 省 了 内 存 ， 
还 有 可 能 帮助 我 们 解决 过 拟 合 问 题 。 不 过 必须 小 心 一 点 , 因为 我 们 只 想 去 掉 那 些 额外 的 噪音 系 
数 ， 而 不 想 失 去 正确 的 系数 。 所 以 要 做 的 就 是 明确 地 将 一 些 权 重 设 为 0， 也 就 是 所 谓 的 L0 正 
则 化 ， 它 对 不 是 0 的 权重 进行 惩罚 。 但 是 ， 它 没有 凸 性 〈convex) ， 难 以 优化 。 因 此 ，L0 IE 
则 化 这 种 想法 在 实践 中 并 不 是 一 种 有 效 的 方法 。 

如 果 我 们 将 条 件 放宽 至 Ll 正则 化 ， 只 对 权重 的 绝对 值 总 和 进行 处 罚 ， 那 么 仍 可 以 促使 模 
型 变 得 非常 稀疏 。 这 也 会 让 其 中 的 许多 系数 归 零 。 这 种 正则 化 与 L2 正则 化 略 有 不 同 〈 因 为 L2 
也 会 尝试 设置 较 小 的 权重 ， 但 实际 上 并 不 会 让 权重 归 零 ) 。 

在 线性 回归 模型 中 , 一 个 权重 为 0 的 特征 等 同 于 不 用 这 个 特征 。 为 了 减少 模型 复杂 性 , 一 
种 方法 是 使 用 正则 函数 来 鼓励 一 些 权 重 为 0。 除 了 避免 过 拟 合 外 ， 这 种 做 法 也 会 更 有 效 。 下 面 
我 们 通过 一 些 代 码 实例 来 体会 。 

先 装载 数据 集 : 


import math 























from IPython import display 

from matplotlib import cm 

from matplotlib import gridspec 

from matplotlib import pyplot as plt 
import numpy as np 

import pandas as pd 

from sklearn import metrics 

import tensorflow as tf 

from tensorflow.python.data import Dataset 


tf.logging.set verbosity(tf.logging.ERROR) 
pd.options.display.max rows = 10 


pd.options.display.float format = '{:.1f}'.format 


california housing dataframe = 
pd.read csv("https://storage.googleapis.com/mledu-datasets/california housing | 
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train.csv", sep-",") 


california housing dataframe = california housing dataframe.reindex( 
np.random.permutation(california housing dataframe.index)) 


定义 特征 预 处 理 函 数 : 


def preprocess features (california housing dataframe) : 
"""Prepares input features from California housing data set. 








Args: 
california housing dataframe: A Pandas DataFrame expected to contain data 
from the California housing data set. 
Returns: 
A DataFrame that contains the features to be used for the model, including 


synthetic features. 
n 





selected features = california housing dataframe[ 
["latitude", 
"longitude", 
"housing median age", 
"total rooms", 
"total bedrooms", 
"population", 
"households", 
"median income"]] 
processed features - selected features.copy() 
# Create a synthetic feature. 
processed features["rooms per person"] - ( 
california housing dataframe["total rooms"] / 
california housing dataframe ["population"]) 
return processed features 


def preprocess targets(california housing dataframe): 
"""Prepares target features (i.e., labels) from California housing data set. 





Args: 
california housing dataframe: A Pandas DataFrame expected to contain data 
from the California housing data set. 
Returns: 


A DataFrame that contains the target feature. 
nnn 


output targets - pd.DataFrame() 
# Create a boolean categorical feature representing whether the 
# median house value is above a set threshold. 
output targets["median house value is high"] = ( 
california housing dataframe["median house value"] » 265000).astype(float) 
return output targets 


定义 训练 集 和 评估 集 : 


# Choose the first 12000 (out of 17000) examples for training. 
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preprocess features(california housing dataframe.head(12000)) 
training targets = preprocess targets(california housing dataframe.head(12000)) 


# Choose the last 5000 (out of 17000) examples for validation. 
validation examples - 

preprocess features(california housing dataframe.tail(5000)) 
validation targets = 

preprocess targets(california housing dataframe.tail(5000)) 


# Double-check that we've done the right thing. 
print "Training examples summary:" 
display.display(training examples.describe()) 
print "Validation examples summary:" 
display.display(validation examples.describe()) 


print "Training targets summary:" 
display.display(training targets.describe()) 
print "Validation targets summary:" 
display.display(validation targets.describe()) 


结果 如 图 9-37~ 图 9-40 所 示 。 


Training ex 





Umm 





latitude longitude housing median age total rooms total bedrooms population households median income rooms per person 


count 120000 120000 12000.0 12000.0 12000.0 12000.0 12000.0 12000.0 12000.0 
mean 356 -119.6 28.5 2643.6 539.9 1429.9 501.9 39 20 
std 24 20 12.5 2149.5 416.9 1154.5 381.5 19 12 
min 32.5 -124.3 1.0 12.0 3.0 80 30 0.5 0.0 
25% 339 -121.8 18.0 1471.8 298.0 7910 282.0 26 15 
5096 342 -118.5 29.0 2136.0 437.0 1170.0 410.0 36 19 
75% 374 -1180 37.0 31642 651.0 17260 607.0 48 23 
max 42.0 -114.3 52.0 32627.0 6445.0 35682.0 6082.0 15.0 552 





图 9-37 训练 示例 概括 


Validation examples summar 


latitude longitude housing median age total rooms total bedrooms population households median income rooms per person 


count — 50000 5000.0 5000.0 5000.0 5000.0 5000.0 5000.0 5000.0 5000.0 
mean 356 -119.6 28.7 2643.7 538.4 1428.7 499.6 39 20 

std 24 20 128 2251.5 4324 1131.9 3917 19 09 
min 32.5 -124.3 1.0 20 1.0 3.0 10 05 01 
25% 33.9 -121.8 18.0 1433.8 294.8 788.0 2798 25 15 
50% 34,3 -118.5 29.0 21120 4290 1159.0 405.0 3.5 19 
75% 377 -118.0 37.0 3112.0 643.0 1707.0 597.0 47 23 
max 418 -114.6 52.0 379370 54710 161220 51890 150 294 











图 9-38 验证 示例 概括 
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Training targets summary: Validation targets summary: 

median house value is high median house value is high 
12000.0 count 5000.0 
0.3 mean 0.2 
0.4 std 04 
0.0 min 0.0 
0.0 2596 0.0 
0.0 50% 0.0 
1.0 75% 0.0 
1.0 max 1.0 

图 9-39 训练 目标 概括 图 9-40 验证 目标 概括 

定义 输入 函数 : 


def my input fn(features, targets, batch size-1, shuffle-True, num epochs=None): 
"""Trains a linear regression model. 


Args: 
features: pandas DataFrame of features 
targets: pandas DataFrame of targets 
batch size: Size of batches to be passed to the model 
Shuffle: True or False. Whether to shuffle the data. 
num epochs: Number of epochs for which data should be repeated. None - repeat 
indefinitely 
Returns: 
Tuple of (features, labels) for next data batch 


# Convert pandas data into a dict of np arrays. 
features = {key:np.array(value) for key,value in dict(features).items()] 


# Construct a dataset, and configure batching/repeating. 
ds = Dataset.from tensor slices((features,targets)) # warning: 2GB limit 
ds = ds.batch(batch size).repeat (num epochs) 


# Shuffle the data, if specified. 
if shuffle: 
ds = ds.shuffle(10000) 


# Return the next batch of data. 
features, labels = ds.make one shot iterator().get next() 
return features, labels 


def get quantile based buckets (feature values, num buckets): 
quantiles = feature values.quantile( 
[(i+1.)/ (num buckets + 1.) for i in xrange (num buckets)]) 
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return [quantiles[q] for q in quantiles.keys()] 
def construct feature columns (): 
"""Construct the TensorFlow Feature Columns. 


Returns: 
A set of feature columns 


bucketized households = tf.feature column.bucketized column( 
tf.feature column.numeric column ("households"), 
boundaries-get quantile based buckets (training examples["households"], 10)) 
bucketized longitude - tf.feature column.bucketized column( 
tf.feature column.numeric column("longitude"), 
boundaries-get quantile based buckets (training examples["longitude"], 50)) 
bucketized latitude = tf.feature column.bucketized column( 
tf.feature column.numeric column("latitude"), 
boundaries-get quantile based buckets(training examples["latitude"], 50)) 
bucketized housing median age - tf.feature column.bucketized column( 
tf.feature column.numeric column("housing median age"), 
boundaries-get quantile based buckets( 
training examples["housing median age"], 10)) 
bucketized total rooms = tf.feature column.bucketized column( 
tf.feature column.numeric column("total rooms"), 
boundaries=get quantile based buckets (training examples["total rooms"], 
10)) 
bucketized total bedrooms = tf.feature column.bucketized column( 
tf.feature column.numeric column("total bedrooms"), 
boundaries-get quantile based buckets(training examples["total bedrooms"], 
10)) 
bucketized population - tf.feature column.bucketized column( 
tf.feature column.numeric column("population"), 
boundaries-get quantile based buckets (training examples["population"], 10)) 
bucketized median income - tf.feature column.bucketized column( 
tf.feature column.numeric column("median income"), 
boundaries-get quantile based buckets (training examples["median income"], 
10)) 
bucketized rooms per person - tf.feature column.bucketized column( 
tf.feature column.numeric column("rooms per person"), 
boundaries-get quantile based buckets( 
training examples["rooms per person"], 10)) 


long x lat - tf.feature column.crossed column( 
set([bucketized longitude, bucketized latitude]), hash bucket size-1000) 


feature columns - set([ 
long x lat, 
bucketized longitude, 
bucketized latitude, 
bucketized housing median age, 
bucketized total rooms, 
bucketized total bedrooms, 
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bucketized population, 
bucketized households, 
bucketized median income, 
bucketized rooms per person]) 


return feature columns 


下 面 使 用 Estimators API 来 计算 模型 大 小 (为 了 简单 起 见 ,就 是 计算 不 是 0 的 参数 的 个 数 ): 


def model size(estimator): 

variables - estimator.get variable names() 

size = 0 

for variable in variables: 

if not any(x in variable 
for x in ['global step', 

'centered bias weight', 
'bias weight', 
EEDENI 




















ya 
size += np.count nonzero(estimator.get variable value (variable)) 
return size 


下 面 使 用 工 1 正则 化 来 减少 模型 大 小 〈600) ， 并 确保 在 验证 集 上 的 log-loss 小 于 0.35: 


def train linear classifier model( 
learning rate, 
regularization strength, 
steps, 
batch size, 
feature columns, 
training examples, 
training targets, 
validation examples, 
validation targets): 
"""Trains a linear regression model. 

















In addition to training, this function also prints training progress information, 
as well as a plot of the training and validation loss over time. 


Args: 

learning rate: A ^float', the learning rate. 

regularization strength: A ^float' that indicates the strength of the Ll 
regularization. A value of `0.0` means no regularization. 

steps: A non-zero ^int', the total number of training steps. A training step 
consists of a forward and backward pass using a single batch. 

feature columns: A ^set' specifying the input feature columns to use. 

training examples: A "DataFrame' containing one or more columns from 
"california housing dataframe' to use as input features for training. 

training targets: A ^"DataFrame' containing exactly one column from 
‘california housing dataframe' to use as target for training. 

validation examples: A "DataFrame' containing one or more columns from 
"california housing dataframe' to use as input features for validation. 

validation targets: A "DataFrame' containing exactly one column from 
"california housing dataframe' to use as target for validation. 


304 





Returns: 


A ^LinearClassifier' object trained on the training data. 
"nn 


periods - 7 
steps per period = steps / periods 


# Create a linear classifier object. 
my optimizer - tf.train.FtrlOptimizer(learning rate-learning rate, 
11 regularization strength-regularization strength) 
my optimizer - tf.contrib.estimator.clip gradients by norm(my optimizer, 5.0) 
linear classifier - tf.estimator.LinearClassifier( 
feature columns-feature columns, 
optimizer-my optimizer 


) 


# Create input functions. 
training input fn - lambda: my input fn(training examples, 


training targets["median house value is high"], 
batch size-batch size) 
predict training input fn - lambda: my input fn(training examples, 


training targets["median house value is high"], 
num epochs=1, 
shuffle-False) 
predict validation input fn = lambda: my input fn(validation examples, 


validation targets["median house value is high"], 
num epochs=1, 
shuffle-False) 


# Train the model, but do so inside a loop so that we can periodically assess 
# loss metrics. 
print "Training model..." 
print "LogLoss (on validation data) :" 
training log losses = [] 
validation log losses = [] 
for period in range (0, periods): 
# Train the model, starting from the prior state. 
linear classifier.train( 
input fn-training input fn, 
steps=steps per period 
) 
# Take a break and compute predictions. 
training probabilities = 
linear classifier.predict(input fn-predict training input fn) 
training probabilities = np.array([item['probabilities'] for item in 
training probabilities]) 


validation probabilities = 
linear classifier.predict(input fn-predict validation input fn) 
validation probabilities = np.array([item['probabilities'] for item in 
validation probabilities]) 
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# Compute training and validation loss. 
training log loss - metrics.log loss(training targets, 
training probabilities) 
validation log loss - metrics.log loss(validation targets, 
validation probabilities) 
# Occasionally print the current loss. 
print " period %02d : $0.2f" % (period, validation log loss) 
# Add the loss metrics from this period to our list. 
training log losses.append(training log loss) 
validation log losses.append(validation log loss) 
print "Model training finished." 


# Output a graph of loss metrics over periods. 
plt.ylabel ("LogLoss") 

plt.xlabel ("Periods") 

plt.title("LogLoss vs. Periods") 

plt.tight layout () 

plt.plot (training log losses, label="training") 
plt.plot (validation log losses, label="validation") 
plt.legend() 


return linear classifier 


使 用 regularization strength=0.1 开始 训练 : 


linear classifier = train linear classifier model( 
learning rate-0.1, 
regularization strength-0.1, 
steps-300, 
batch size-100, 
feature columns-construct feature columns(), 
training examples-training examples, 
training targets-training targets, 
validation examples-validation examples, 
validation targets-validation targets) 

print "Model size:", model size(linear classifier) 


结果 如 图 9-41、 图 9-42 所 示 。 


Training model... 
LogLoss (on validation data): 
period 00 : 0.31 










period 01 : 0 
period 02 : 0. 
period 03 : 0.26 
period 04 : 0. 
period 05 : 0. 
period 06 : 0.24 
Model training finished. 
Model size: 762 





图 9-41 训练 数据 
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LogLoss vs. Periods 


0 1 2 3 4 5 6 
Periods 





图 9-42 ”训练 结果 
要 注意 的 是 ， 正 则 化 越 强 ， 模 型 越 小 ， 但 是 会 影响 分 类 误差 。 
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本 章 ， 我 们 以 TensorFlow ARASH, MAHA IA. 


10.1 什么 是 神经 网 络 


我 们 在 9.1 节 中 提 到 如 图 10-1 所 示 的 分 类 问题 属于 非 线性 问题 。 

“ 非 线 性 ”意味 着 你 无 法 使 用 形式 为 gt+wxitwzxa 的 模型 准确 预测 标签 。 我 们 采用 特征 交 
又 对 非 线 性 问题 进行 建 模 ， 从 而 解决 了 如 图 10-1 所 示 的 问题 。 但 是 ， 如 果 数 据 集 如 图 10-2 所 
示 ， 那 么 会 怎么 样 呢 ? 





10-1 非 线性 分 类 问题 10-2 更 难 的 非 线性 分 类 问题 


图 10-2 所 示 的 数据 集 问题 是 一 个 互相 交错 的 螺旋 组 合 ， 无 法 用 线性 模型 解决 。 我 们 可 以 
考虑 如 何 添加 正确 的 特征 交叉 乘积 来 解决 。 但 很 显然 , 我 们 的 数据 集 可 能 会 越 来 越 复杂 。 最 终 
还 是 希望 通过 某 种 方式 让 模型 自行 学 习 非 线性 规律 , 而 不 用 我 们 手动 为 它们 指定 参数 。 这 可 以 
通过 深度 神经 网 络 来 实现 。 深度 神经 网 络 可 以 非常 出 色 地 处 理 复杂 数据 , 例如 图 片 数 据 、 音 频 
数据 以 及 视频 数据 等 。 我 们 将 在 本 章 详细 了 解 神经 网 络 。 


10.1.1 RRE 


我 们 希望 模型 能 够 自行 学 习 非 线性 规律 , 而 不 用 手动 为 它们 指定 参数 。 这 需要 神经 网 络 来 
帮助 解决 这 类 非 线性 问题 。 那 么 ， 什 么 是 神经 网 络 呢 ? 首 先 用 图 表 呈 现 一 个 线性 模型 ， 如 图 
10-3 所 示 。 

该 模型 中 有 一 些 输入 ， 每 个 输入 都 具有 一 个 权重 ， 这 些 权重 以 线性 方式 结合 到 一 起 产生 
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输出 。 每 个 蓝 色 圆圈 (最 下 面 一 层 ) 均 表示 一 个 输入 特征 ,绿色 圆圈 (最 上 面 一 层 ) 表示 各 个 
输入 的 加 权 和 。 为 了 提高 此 模型 处 理 非 线性 问题 的 能 力 ， 我 们 可 以 如 何 更 改 它 ? 

在 图 10-4〈 颜 色 请 参看 下 载 包 中 的 相关 文件 ) 所 示 的 模型 中 ， 我 们 添加 了 一 个 表示 中 间 
值 的 “隐藏 层 ”。 隐 藏 层 中 的 每 个 黄色 节点 〈 中 间 层 ) 均 是 蓝 色 输 入 节点 〈 最 下 面 一 层 ) 值 的 
加 权 和 。 和 输出 的 是 黄色 节点 《中 间 层 ) 的 加 权 和 。 











输出 


绿 
OM * Ó OX pee 
b SEX 
» e e d Li @ 输入 


10-3 ”用 图 表 呈 现 的 线性 模型 图 10-4 两 层 模型 的 图 表 


此 模型 是 线性 的 ， 因 为 其 输出 仍 是 其 输入 的 线性 组 合 。 在 图 10-5 所 示 的 模型 中 ， 我 们 又 
添加 了 一 个 表示 加 权 和 的 “隐藏 层 ”。 


ie 


LE 





10-5 三 层 模型 的 图 表 


此 模型 仍 是 线性 的 。 当 你 将 输出 表示 为 输入 的 函数 并 进行 简化 时 , 只 是 获得 输入 的 另 一 个 
加 权 和 而 已 。 该 加 权 和 无 法 对 图 10-2 中 的 非 线性 问题 进行 有 效 建 模 。 因 为 即便 我 们 添加 任意 
多 的 分 层 ， 所 有 线性 函数 的 组 合 依然 是 线性 函数 。 因 此 ， 我 们 要 从 其 他 方面 着 手 。 所 谓 的 从 其 
他 方面 着 手 ， 也 就 是 说 ， 我 们 需要 添加 非 线性 函数 。 

















10.1.2. 激活 函数 


要 对 非 线性 问题 进行 建 模 , 我 们 可 以 直接 引入 非 线 性 函数 。 这 种 非 线性 函数 可 位 于 任何 小 
的 隐藏 式 节点 的 输出 中 。 我 们 可 以 用 非 线性 函数 将 每 个 隐藏 层 节 点 像 管道 一 样 连接 起 来 。 在 图 
10-6 所 示 的 模型 中 ， 在 “隐藏 层 1” 中 的 各 个 节点 的 值 传递 到 下 一 层 进行 加 权 求 和 之 前 ， 我 们 
采用 一 个 非 线性 函数 对 其 进行 了 转换 。 这 种 非 线性 函数 称 为 激活 函数 。 


309 


人 工 智能 与 大 数据 技术 导论 


Eu 





输出 


隐藏 层 2 


非 线性 转换 层 (又 称 为 激活 函数 ) 


REE 1 


输入 





10-6 包含 激活 函数 的 三 层 模型 的 图 表 
通过 在 非 线 性 上 堆 释 非 线 性 , 我 们 能 够 对 输入 和 预测 输出 之 间 极 其 复杂 的 关系 进行 建 
模 。 下 面 我 们 来 看 一 些 常见 的 激活 函数 。S 型 激活 函数 将 “加 权 和 ”转换 为 介 于 0 和 1 之 
间 的 值 。 


1 
Ipes 


F(x) = 
曲线 图 如 图 10-7 所 示 。 


Su 
4 2 0 2 4 


图 10-7 s 型 激活 函数 





2909000900 
QO-iU€ 2uo-0i- 


10.1.3 ReLU 


相 较 于 S 型 函数 等 平滑 函数 ， 以 下 修正 线性 单元 激活 函数 CReLUO. 的 效果 通常 要 好 一 点 ， 
同时 还 非常 易于 计算 。 





F(x) = maz(0, x) 


ReLU 是 一 种 常用 的 非 线性 激活 函数 。 如 图 10-8 所 示 ， 它 会 接受 线性 函数 ， 并 在 零 值 处 
将 其 截断 。 若 返回 值 在 零 值 以 上 ， 则 为 线性 函数 。 若 函数 返回 值 小 于 零 ， 则 输出 为 零 。 这 是 一 
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种 最 简单 的 非 线性 函数 , 我 们 可 以 使 用 该 函数 来 创建 非 线性 模型 。ReLU 的 优势 在 于 操作 起 来 
非常 简单 ， 拥 有 更 实用 的 响应 范围 。 


ReLU 


4 Oo 2 " o wu 





4 2 0 2 4 


图 10-8 ReLU 激活 函数 


实际 上 ， 所 有 数学 函数 均 可 作为 激活 函数 。 假 设 0 表示 激活 函数 (ReLU、S 型 函数 等 ) ， 
网 络 中 节点 的 值 由 以 下 公式 指定 : 


o(w- a+b) 


TensorFlow 为 各 种 激活 函数 提供 “ 开 箱 即 用 型 ”支持 。 但 是 ， 我 们 仍然 建议 从 ReLU 着 
手 。 然 后 ， 可 以 将 这 些 层级 堆 登 起 来 ， 并 创建 任意 复杂 程度 的 神经 网 络 。 总 之 ， 我 们 的 模型 拥 
有 了 人 们 通常 所 说 的 “神经 网 络 ” 所 有 标准 组 件 : 


e 一 组 节点 ， 类 似 于 神经 元 ， 位 于 层 中 。 

e 一 组 权重 ,表示 每 个 神经 网 络 层 与 其 下 方 的 层 之 间 的 关系 。 下 方 的 层 可 能 是 另 一 个 神 
经 网 络 层 ， 也 可 能 是 其 他 类 型 的 层 。 

e 一 组 偏差 ， 每 个 节点 一 个 偏差 。 

@ /— 一 个 激活 函数 ,对 层 中 每 个 节点 的 输出 进行 转换 .不 同 的 层 可 能 拥有 不 同 的 激活 函数 。 


还 需要 注意 的 是 , 神经 网 络 不 一 定 始终 比特 征 组 合 好 , 但 它 确 实 适 用 于 特征 组 合 很 难处 理 
的 场景 。 





10.1.4 ”实例 代码 


下 面 我 们 用 TensorFlow 的 DNNRegressor 类 来 定义 一 个 神经 网 络 (Neural Network, NN) 
和 它 的 隐藏 层 。 然 后 训练 一 个 神经 网 络 来 学 习 数 据 集中 的 非 线性 , 并 展示 神经 网 络 比 一 个 线性 
回归 模型 能 获得 更 好 的 性 能 。 我 们 先 装载 数据 : 


import math 


from IPython import display 

from matplotlib import cm 

from matplotlib import gridspec 
from matplotlib import pyplot as plt 
import numpy as np 

import pandas as pd 
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from sklearn import metrics 
import tensorflow as tf 
from tensorflow.python.data import Dataset 


tf.logging.set verbosity(tf.logging.ERROR) 
pd.options.display.max rows - 10 
pd.options.display.float format = '{:.1f}'.format 


california housing dataframe = 
pd.read csv("https://storage.googleapis.com/mledu-datasets/california housing 
train.csv", sep=",") 


california housing dataframe = california housing dataframe.reindex( 
np.random.permutation (california housing dataframe.index)) 


然后 预 处 理 数据 : 


def preprocess features(california housing dataframe): 
"""Prepares input features from California housing data set. 





Args: 
california housing dataframe: A Pandas DataFrame expected to contain data 
from the California housing data set. 
Returns: 
A DataFrame that contains the features to be used for the model, including 


synthetic features. 
n 





selected features = california housing dataframe[ 
["latitude", 
"longitude", 
"housing median age", 
"total rooms", 
"total bedrooms", 
"population", 
"households", 
"median income"]] 
processed features - selected features.copy() 
# Create a synthetic feature. 
processed features["rooms per person"] - ( 
california housing dataframe["total rooms"] / 
california housing dataframe["population"]) 
return processed features 


def preprocess targets(california housing dataframe): 
"""Prepares target features (i.e., labels) from California housing data set. 





Args: 
california housing dataframe: A Pandas DataFrame expected to contain data 
from the California housing data set. 
Returns: 
A DataFrame that contains the target feature. 
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output targets = pd.DataFrame() 
# Scale the target to be in units of thousands of dollars. 
output targets["median house value"] - ( 

california housing dataframe["median house value"] / 1000.0) 
return output targets 


创建 训练 集 和 验证 集 : 


# Choose the first 12000 (out of 17000) examples for training. 

training examples = 

preprocess features(california housing dataframe.head(12000)) 

training targets = preprocess targets (california housing dataframe.head(12000)) 


# Choose the last 5000 (out of 17000) examples for validation. 
validation examples - 

preprocess features(california housing dataframe.tail(5000)) 
validation targets = 

preprocess targets(california housing dataframe.tail(5000)) 


4 Double-check that we've done the right thing. 
print "Training examples summary:" 
display.display(training examples.describe()) 
print "Validation examples summary:" 
display.display(validation examples.describe() ) 


print "Training targets summary:" 
display.display (training targets.describe()) 
print "Validation targets summary:" 
display.display(validation targets.describe()) 


结果 如 图 10-9~ 图 10-12 所 示 。 


Training examples summary 

latitude longitude housing median age total rooms total bedrooms population households median income rooms per person 

count 120000 120000 120000 12000.0 12000.0 12000.0 12000.0 12000.0 12000.0 
mean 35.6 -119.6 28.6 2644.9 539.5 1432.0 5014 3.9 20 
std 24 20 126 2186.6 421.8 1168.0 3849 19 10 
min 32.5 -124.3 10 20 10 30 10 05 0.0 
25% 33.9 121.8 18.0 1468.0 298.0 791.0 282.0 26 15 
50% 342 -118.5 29.0 2140.0 434.5 1168.0 409.0 3.5 19 
75% 377 -118.0 37.0 3156.5 650.0 1720.0 607.0 48 25 
max 420 -1143 52.0 32627.0 6445.0 35682.0 6082.0 15.0 342 











图 10-9 训练 示例 概括 


313 








Validation examples summary 

latitude longitude housing median age total rooms total bedrooms population households median income rooms per person 

count — 50000 5000.0 5000.0 5000.0 5000.0 5000.0 5000.0 5000.0 5000.0 
mean 356 -119.5 28.6 26407 5392 14238 500.8 39 20 
std 21 20 125 21642 420.9 1098.1 383.6 19 15 
min 32.5 -124.3 10 18.0 40 8.0 40 05 0.1 
25% 33.9 -121.8 18.0 1448.8 294.0 786.8 280.0 25 15 
50% 342 -118.5 29.0 2112.5 432.0 1165.0 408.0 3.5 1.9 
75% 377 -1180 370 3129.5 646.0 17242 6010 47 23 
max 42.0 -1146 520 379370 5471.0 161220 5189.0 150 552 








10-10 ”验证 示例 概括 














Training targets summary: Validation targets summary: 
median house value median house value 
count 12000.0 count 5000.0 
mean 2084 mean 204.7 
std 1162 std 115.4 
min 15.0 min 22.5 
25% 120.8 25% 117.4 
50% 181.6 50% 176.9 
75% 266.3 75% 261.1 
max 500.0 max 500.0 

10-11 训练 目标 概括 10-12 ”验证 示例 概括 


下 面 来 创建 一 个 神经 网 络 ， 通 过 DNNRegressor 类 来 完成 。 我 们 使 用 hidden_units 来 定义 
神经 网 络 的 结构 。hidden_units 提供 了 一 个 整数 列表 ， 每 个 整数 对 应 一 个 隐藏 层 ， 代 表 隐 藏 层 
Ph 节点 的 个 数 ， 比 如 : 


hidden units-[3,10] 


上 面 指定 了 包含 2 个 隐藏 层 的 神经 网 络 。 第 一 个 隐藏 层 包 含 3 个 节点 , 第 二 个 隐藏 层 包 含 
10 个 节点 。 如 果 我 们 想 添加 更 多 的 层 ， 就 可 以 添加 更 多 的 整数 到 列表 中 。 比 如 ， 
hidden_units=[10,20,30,40] 将 创建 4 层 ， 分 别 包含 10、20、30 和 40 个 节点 。 默 认 情 况 下 ， 所 
有 隐藏 层 使 用 ReLU 激活 函数 ， 并 完全 连接 。 

定义 特征 列 和 输入 函数 : 


def construct feature columns (input features) : 
"""Construct the TensorFlow Feature Columns. 


n 





Args: 

input features: The names of the numerical input features to use. 
Returns : 

A set of feature columns 


return set([tf. feature column.numeric column (my feature) 
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for my feature in input features]) 


def my input fn(features, targets, batch size-1, shuffle-True, num epochs=None): 
Trains a neural net regression model. 





Args: 
features: pandas DataFrame of features 
targets: pandas DataFrame of targets 
batch size: Size of batches to be passed to the model 
shuffle: True or False. Whether to shuffle the data. 
num epochs: Number of epochs for which data should be repeated. None - repeat 
indefinitely 
Returns: 
Tuple of (features, labels) for next data batch 


# Convert pandas data into a dict of np arrays. 
features = {key:np.array(value) for key,value in dict(features).items()] 


# Construct a dataset, and configure batching/repeating. 
ds = Dataset.from tensor slices((features,targets)) # warning: 2GB limit 
ds = ds.batch(batch size).repeat (num epochs) 


# Shuffle the data, if specified. 
if shuffle: 
ds - ds.shuffle(10000) 


# Return the next batch of data. 
features, labels - ds.make one shot iterator().get next() 
return features, labels 


定义 神经 网 络 : 


def train nn regression model( 
learning rate, 
steps, 
batch size, 
hidden units, 
training examples, 
training targets, 
validation examples, 
validation targets): 
"""Trains a neural network regression model. 


In addition to training, this function also prints training progress information, 
as well as a plot of the training and validation loss over time. 


Args: 
learning rate: A ^float', the learning rate. 
steps: A non-zero ^int', the total number of training steps. A training step 
consists of a forward and backward pass using a single batch. 
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batch size: A non-zero "int', the batch size. 
hidden units: A ^list' of int values, specifying the number of neurons in each 
layer. 
training examples: A ^DataFrame' containing one or more columns from 
"california housing dataframe' to use as input features for training. 
training targets: A "DataFrame' containing exactly one column from 
"california housing dataframe' to use as target for training. 
validation examples: A ^DataFrame' containing one or more columns from 
"california housing dataframe' to use as input features for validation. 
validation targets: A "DataFrame' containing exactly one column from 
"california housing dataframe' to use as target for validation. 


Returns: 


A "DNNRegressor' object trained on the training data. 
"nn 


periods - 10 
steps per period - steps / periods 


# Create a DNNRegressor object. 
my optimizer = tf£.train.GradientDescentOptimizer (learning rate=learning rate) 
my optimizer = tf.contrib.estimator.clip gradients by norm(my optimizer, 5.0) 
dnn regressor = tf.estimator.DNNRegressor ( 

feature columns=construct feature columns(training examples), 

hidden units=hidden units, 

optimizer=my optimizer, 


# Create input functions. 

training input fn = lambda: my input fn(training examples, 
training targets["median house value"], 
batch size=batch size) 

predict training input fn = lambda: my input fn(training examples, 


training targets["median house value"], 
num epochs=1, 
shuffle=False) 
predict validation input fn = lambda: my input fn(validation examples, 


validation targets["median house value"], 
num epochs=1, 
shuffle=False) 


# Train the model, but do so inside a loop so that we can periodically assess 
# loss metrics. 
print "Training model..." 
print "RMSE (on training data) :" 
training rmse = [] 
validation rmse = [] 
for period in range (0, periods): 
# Train the model, starting from the prior state. 
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dnn regressor.train( 
input fn=training input fn, 
steps=steps per period 
) 
# Take a break and compute predictions. 
training predictions = 
dnn regressor.predict (input fn=predict training input fn) 
training predictions = np.array([item['predictions'][0] for item in 
training predictions]) 


validation predictions - 

dnn regressor.predict(input fn-predict validation input fn) 

validation predictions - np.array([item['predictions'][0] for item in 
validation predictions]) 


# Compute training and validation loss. 
training root mean squared error = math.sqrt( 
metrics.mean squared error(training predictions, training targets)) 
validation root mean squared error - math.sqrt( 
metrics.mean squared error(validation predictions, validation targets)) 
# Occasionally print the current loss. 
print " period $02d : $0.2f" $ (period, training root mean squared error) 
# Add the loss metrics from this period to our list. 
training rmse.append(training root mean squared error) 
validation rmse.append(validation root mean squared error) 
print "Model training finished." 


# Output a graph of loss metrics over periods. 
plt.ylabel ("RMSE") 

plt.xlabel ("Periods") 

plt.title("Root Mean Squared Error vs. Periods") 
plt.tight layout () 

plt.plot (training rmse, label="training") 
plt.plot (validation rmse, label="validation") 
plt.legend() 


print "Final RMSE (on training data):  $0.2f" $ training root mean squared error 
print "Final RMSE (on validation data): $0.2f" $ 
validation root mean squared error 


return dnn regressor 


下 面 我 们 训练 一 个 神经 网 络 模型 。 调 整 一 些 超 参 数 ， 把 RMSE 降低 到 110 AF ERT 
的 线性 回归 例子 中 , 我 们 认为 RMSE 110 是 一 个 不 错 的 结果 ) 。 尝 试 修改 各 个 设置 来 提高 验证 
集 上 的 准确 率 。 
对 于 神经 网 络 而 言 , 过 拟 合 是 一 个 潜在 风险 。 通过 检查 训练 数据 上 的 误差 和 验证 数据 上 的 
误差 之 间 的 差额 , 我 们 可 以 判断 是 否 开 始 过 拟 合 了 。 如 果 差 额 开始 增加 ,通常 是 一 个 过 拟 合 的 
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尝试 多 种 不 同 的 设置 。 读者 可 记录 这 些 设置 和 结果 ,并 进行 分 析 。 当 你 获得 一 个 好 的 设置 
时 ,可 以 尝试 多 运行 几 次 , 看 看 能 否 重 现 结果 。 一般 而 言 , 可 以 先 使 用 小 的 神经 网 络 权重 开始 ， 
然后 逐步 加 大 ， 查 看 效果 。 

开始 训练 : 


dnn regressor = train nn regression model( 
learning rate-0.01, 
steps=500, 
batch size=10, 
hidden units=[10, 2], 
training examples=training examples, 
training targets=training targets, 
validation examples=validation examples, 
validation targets-validation targets) 


结果 如 图 10-13. A 10-14 所 示 。 


Training model... 
RMSE (on training 
period 00 : 236. 4: 
period 01 : 
period 02 : 
period 03 
period 04 
period 05 
period 06 
period 07 
period 08 
period 09 
Model training finished. 
Final RMSE (on training data): 217.13 
Final RMSE (on validation data): 213.50 


图 10-13 训练 数据 


Root Mean Squared Error vs. Periods 
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图 10-14 训练 结果 
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下 面 我 们 尝试 不 同 的 参数 : 


dnn regressor = train nn regression model( 
learning rate-0.001, 
steps=2000, 
batch size=100, 
hidden units=[10, 10], 
training examples=training examples, 
training targets=training targets, 
validation examples=validation examples, 
validation_targets=validation_targets) 


结果 如 图 10-15. A 10-16 所 示 。 


nodel... 
training data): 
period 00 : .73 
period 01 : .63 
period 02 .95 
period 03 
period 04 
period 05 
period 06 : 
period 07 : 
period 08 : 
period 09 : 
Model training finished. 
Final RMSE (on training data): 119.20 
Final RMSE (on validation data): 113.42 


10-15 训练 数据 


Root Mean Squared Error vs. Periods 
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图 10-16 训练 结果 
一 旦 满意 在 验证 集 上 的 结果 , 接 下 来 就 可 以 在 测试 集 上 进行 测试 。 在 下 面 的 代码 中 ,装载 
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测试 数据 ， 预 处 理 这 些 数 据 ， 然 后 调用 预测 函数 。 最 后 计算 根 均 方 值 : 


california housing test data - 

pd.read csv("https://storage.googleapis.com/mledu-datasets/california housing 
test.csv", sep=",") 

test examples = preprocess features(california housing test data) 

test targets = preprocess targets(california housing test data) 


predict testing input fn - lambda: my input fn(test examples, 
test targets["median house value"], 
num epochs-1, 
shuffle-False) 
test predictions - dnn regressor.predict(input fn-predict testing input fn) 
test predictions = np.array([item['predictions'][0] for item in test predictions]) 
root mean squared error - math.sqrt( 
metrics.mean squared error(test predictions, test targets)) 


print "Final RMSE (on test data): $0.2f" $ root mean squared error 
结果 如 下 : 


Final RMSE (on test data): 116.12 


10.2 viewers 


机 器 学 习 的 常见 任务 就 是 拟 合 ， 也 就 是 给 定 一 些 样本 点 ， 用 合适 的 曲线 揭示 这 些 样本 点 随 着 
自 变量 的 变化 关系 。 深 度 学 习 同 样 也 是 为 了 这 个 目的 ， 只 不 过 此 时 样本 点 不 再 限定 为 (x, y) 点 对 ， 
而 可 以 是 由 向 量 、 和 拢 阵 等 组 成 的 广义 点 对 CXCY)。 此 时 ，(CXY) 之 间 的 关系 也 变 得 十 分 复杂 ， 不 大 
可 能 用 一 个 简单 函数 表示 。 正 如 前 面 提 到 的 ， 我 们 可 以 用 多 层 神经 网 络 来 表示 这 样 的 关系 。 

Backpropagation( 反 向 传播 ) 算法 是 最 常见 的 一 种 多 层 神经 网 络 训练 算法 。 借助 这 种 算法 ， 
梯度 下 降 法 在 多 层 神经 网 络 中 将 成 为 可 行 方法 。 反 向 传播 算法 对 于 快速 训练 大 型 神经 网 络 来 说 
SEXE, TensorFlow 可 自动 处 理 反 向 传播 算法 ， 因 此 我 们 不 需要 对 该 算法 做 深入 研究 。 


10.2.1 正 向 传播 算法 


在 学 习 反 向 传播 算法 的 工作 原理 之 前 ,我 们 首先 了 解 一 下 什么 是 正 向 传播 算法 。 如 图 10-17 
所 示 ， 这 是 一 个 简单 的 神经 网 络 〈 见 左 图 ) ， 其 中 包含 一 个 输入 节点 、 一 个 输出 节点 以 及 两 个 
隐藏 层 〈 分 别 有 两 个 节点 ) 。 相 邻 的 层 中 的 节点 通过 权重 wi 相关 联 ， 这 些 权重 是 网 络 参数 。 
如 图 10-17 的 中 图 所 示 ， 每 个 节点 都 有 一 个 输入 x、 一 个 激活 函数 fx) 以 及 一 个 输出 y=), 
必须 是 非 线性 函数 ， 否 则 神经 网 络 就 只 能 学 习 线 性 模型 。 常 用 的 激活 函数 是 S 型 函数 ， 比 如 : 


f(z)- i 








320 


6 H 1 "© 
xk 


x x 
y " x, x 
a 
av 到 x x 
hi] Vas h^ Ws “as "zs I "as w, ^1 Was Way Ww sn 
y Y L 
N N Y Ys 
x x 
2 3 x, x, 
o A 
x 4 > * t 
Wa Wa wa "a We Wa 
m St 


图 10-17 神经 网 络 


如 图 10-17 右 图 所 示 , 根据 数据 自动 学 习 网 络 的 权重 ,以 便 让 所 有 输入 Zinput 的 预测 输出 
Youtput 接近 目标 Yarget。 为 了 衡量 与 该 目标 的 差距 , 我 们 使 用 了 一 个 误差 函数 E CLE 10-17 
右 图 的 右上 端 ) 。 常 用 的 误差 函数 是 : 

E(Youtput » Yearget = $ (Youtput — Yrarget )" 

针对 图 10-17， 我 们 首先 看 一 下 什么 是 正 向 传播 〈 即 从 图 的 底部 往 上 看 ) 。 取 一 个 输入 样 
本 (zinputygmroet)， 并 更 新 网 络 的 输入 层 。 为 了 保持 一 致 性 ， 我 们 将 输入 视 为 与 其 他 任何 节点 相 
同 ， 但 不 具有 激活 函数 ， 所 以 

Yı = Tinput 

然后 ， 更 新 第 一 个 隐藏 层 。 我 们 取 上 一 层 节点 的 输出 y， 并 使 用 权重 来 计算 下 一 层 节点 的 

输入 x, Hs 


57 »» wijyi t bj 
ien) 


有 了 上 面 公式 中 的 x 值 之 后 , 更 新 第 一 个 隐藏 层 中 节点 的 输出 。 为 此 , 我 们 使 用 激活 函数 
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fx), HU y=f(x)。 使 用 这 两 个 公式 ， 我 们 可 以 传播 到 网 络 的 其 余 节点 ， 并 获得 网 络 的 最 终 输出 
(一 直到 最 顶端 ) 。 
y= f(z) 
E x Wijyi +bj 
icin(j) 
10.2.2 反 向 传播 算法 


在 讲解 反 向 传播 算法 之 前 ， 我 们 先 说 明 一 下 误差 导数 。 反 向 传播 算法 会 对 特定 样本 的 预测 输 
出 和 理想 输出 进行 比较 ， 然 后 确定 网 络 的 每 个 权重 的 更 新 幅度 。 为 此 ， 需 要 计算 误差 相对 于 每 个 
权重 的 变化 情况 ( 站) 。 获 得 误差 导数 后 ， 可 以 使 用 一 种 简单 的 更 新 法 则 来 更 新 权重 : 


其 中 ，a 是 一 个 正常 量 ， 称 为 “学 习 速率 ”， 我 们 需要 根据 经 验 对 该 常量 进行 微调 。 该 更 
新 法 则 非常 简单 ， 如果 在 权重 提高 后 误差 降低 了 《〈 着 <0) ， 则 提高 权重 ;如 果 在 权重 提高 
后 误差 也 提高 了 〈 种; >0) ， 则 降低 权重 。 如 图 10-18 所 示 ， 每 个 权重 的 连 线 上 都 加 了 误差 导数 。 
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图 10-18 HRA HAS 


322 


581039 神经 网 络 


为 了 帮助 计算 Gu ， 我 们 还 为 每 个 节点 分 别 存储 了 两 个 导数 :节点 dE/dx 的 输入 以 及 节 
点 dE/dy 的 输出 〈 见 图 10-18 的 右 图 ， 比 较 左 图 和 右 图 ) 。 

如 图 10-18 右 图 所 示 〈 见 图 上 箭头 ) ， 下 面 开 始 反 向 传播 误差 导数 。 由 于 我 们 拥有 此 特定 
输入 样本 的 预测 输出 ， 因 此 可 以 计算 误差 随 该 输出 的 变化 情况 。 根 据 误 差 函数 : 


E- $ (Youtput — Yrarget y 


可 以 得 出 : 
ðE 
Vout = Youtput 一 Ytarget 
有 了 dE/dy， 接 下 来 便 可 以 根据 链 式 法 则 得 出 dE/dx 〈 见 图 10-18， 从 顶端 往 下 走 ) o 


其 中 ， 当 fx) 是 S 型 激活 函数 时 : 
acfG)- f(z)(1 - f(z)) 
一 旦 得 出 相对 于 某 节 点 的 总 输入 的 误差 导数 ,我 们 便 可 以 得 出 相对 于 进入 该 节点 的 权重 的 


误差 导数 : 
QE Oz; 0E OE 
[REDIRET 
根据 链 式 法 则 ， 我 们 还 可 以 根据 上 一 层 得 出 dE/dy。 此 时 ， 形 成 了 一 个 完整 的 循环 。 
BB _ yx aE ys, OB 
和 
接 下 来 ， 只 需 重复 前 面 的 几 个 公式 ， 直 到 计算 出 所 有 误差 导数 即 可 。 反 向 传播 完成 。 
值得 注意 的 是 ， 很 多 常见 情况 都 会 导致 反 向 传播 算法 出 错 。 
@ 梯度 消失 
反 向 传播 依赖 于 梯度 。 较 低层 〈 更 接近 输入 ) 的 梯度 可 能 会 变 得 非常 小 。 在 深度 网 络 中 ， 
计算 这 些 梯度 时 ， 可 能 涉及 许多 小 项 的 乘积 。 当 较 低层 的 梯度 逐渐 消失 到 0 时 ， 这 些 层 的 训 
练 速度 会 非常 缓慢 ， 甚 至 不 再 训练 。 ReLU 激活 函数 有 助 于 防止 梯度 消失 。 一 般 来 讲 , 我 们 尽 
量 将 模型 的 深度 限制 为 最 小 的 有 效 深度 。 
e HIRE 
如 果 网 络 中 的 权重 过 大 ,那么 较 低 层 的 梯度 会 涉及 许多 大 项 的 乘积 。 在 这 种 情况 下 , 梯度 
就 会 爆炸 : 梯度 过 大 导致 难以 收敛 。 批 标准 化 可 以 降低 学 习 速率 ， 因 而 有 助 于 防止 梯度 爆炸 。 
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如 果 学 习 速 率 太 高 ， 就 会 出 现 极 不 稳定 的 情况 ， 模 型 中 就 可 能 出 现 NaN。 在 这 种 情况 下 ， 就 
要 以 较 低 的 学 习 速率 再 试 一 次 。 

€ ReLU 单元 消失 

—H ReLU 单元 的 加 权 和 低 于 0，ReLU 单元 就 可 能 会 停滞 。 它 会 输出 对 网 络 输出 没有 任 
何 贡献 的 0 激活 ， 而 梯度 在 反 向 传播 算法 期 间 将 无 法 再 从 中 流 过 。 如 果 最 终 所 有 内 容 都 低 于 0 
值 , 梯度 就 无 法 反 向 传播 ， 由 于 梯度 的 来 源 被 切断 ，ReLU 的 输入 可 能 无 法 做 出 足够 的 改变 来 
使 加 权 和 恢复 到 0 以 上 。 降 低 学 习 速率 有 助 于 防止 ReLU 单元 消失 。 


10.2.3 ”标准 化 特征 值 


训练 时 ， 如 果 特 征 值 在 输入 时 就 已 经 标准 化 Cnormalize) ， 通 常会 对 我 们 非常 有 用 。 如 果 
范围 大 致 相同 ， 就 有 助 于 提高 神经 网 络 的 转化 速度 。 虽 然 范围 实际 值 并 不 重要 ,但 是 我 们 通常 
推荐 的 大 致 范围 是 -1~+1。 正 因为 如 此 ， 标 准 化 特征 值 有 时 叫 作 “ 归 一 化 ”。 它 是 为 了 加 快 训 
练 网 络 的 收敛 性 ， 避 免 空 值 。 

由 于 采集 的 各 数据 单位 不 一 致 ,因而 需 对 数据 进行 [-1，]] 归 一 化 处 理 , 归 一 化 的 具体 作用 
是 归纳 统一 样本 的 统计 分 布 性 。 归 一 化 在 0 和 1 之 间 是 统计 的 概率 分 布 ， 归 一 化 在 -1 和 +1 之 
间 是 统计 的 坐标 分 布 。 无 论 是 为 了 建 模 还 是 为 了 计算 ， 首 先 基 本 度量 单位 要 统一 ， 神 经 网 络 是 
以 样本 在 事件 中 的 统计 概率 来 进行 训练 (概率 计算 ) 和 预测 的 ， 归 一 化 是 统一 在 0 和 1 之 间 的 
统计 概率 分 布 。 

当 所 有 样本 的 输入 信号 都 为 正 值 时 ， 与 第 一 隐 含 层 神经 元 相连 的 权 值 只 能 同时 增加 或 减 
小 ， 从 而 导致 学 习 速度 很 慢 。 为 了 避免 出 现 这 种 情况 ,加 快 网 络 学 习 速度 ， 可 以 对 输入 信号 进 
行 归 一 化 ， 使 得 所 有 样本 的 输入 信号 的 均值 接近 于 0 或 与 其 均 方差 相 比 很 小 。 


P 





10.24 丢弃 正则 化 


在 训练 深度 网 络 时 还 有 一 个 很 有 用 的 技巧 , 即 正则 化 的 另 一 种 形式 , 叫 作 丢 弃 Dropout) ， 
可 用 于 神经 网 络 。 其 工作 原理 是 ,在 梯度 下 降 法 的 每 一 步 中 随机 丢弃 一 些 网 络 单元 。 丢 弃 得 越 
多 ， 正 则 化 效果 就 越 强 : 


€ 00- 无 丢弃 正则 化 。 
© 1.0= 丢弃 所 有 内 容 。 模 型 学 不 到 任何 规律 。 
e 00 和 10 之 间 的 值 更 有 用 。 


若 一 个 都 不 丢弃 ， 则 模型 便 具备 完整 的 复杂 性 ; 若 在 训练 过 程 中 的 某 个 位 置 进行 丢弃， 则 
相当 于 在 这 个 位 置 应 用 了 某 种 有 效 的 正则 化 。 丢 弃 的 目的 也 是 用 来 减少 过 拟 合 。 而 和 Ll1、L2 
正则 化 不 同 的 是 ， 丢 弃 是 改变 神经 网 络 本 身 的 结构 。 假 设 有 一 个 神经 网 络 ， 按 照 前 面 的 方法 ， 
根据 输入 X， 先 正 向 更 新 神经 网 络 ， 得 到 输出 值 ， 然 后 反 向 根据 backpropagation 算法 来 更 新 
权重 和 偏向 。 而 丢弃 不 同 的 是 : 
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(1) 开始 时 随机 删除 掉 隐 藏 层 一 半 的 神经 元 。 

(2) 然后 ， 在 删除 后 的 剩 下 一 半 神 经 元 中 正 向 和 反 向 更 新 权重 和 偏向 。 

GO 再 恢复 之 前 删除 的 神经 元 ， 重 新 随机 删除 一 半 的 神经 元 ， 正 向 和 反 向 更 新 w 和 b。 
(4) 重复 上 述 过 程 。 


最 后 , 学 习 出 来 的 神经 网 络 中 的 每 个 神经 元 都 是 在 只 有 一 半 神 经 元 的 基础 上 学 习 的 ,因为 
更 新 次 数 减 半 ， 学 习 的 权重 会 偏 大 ， 所 以 当 所 有 神经 元 被 恢复 后 (上述 步骤 (2) ) ， 把 得 到 
的 隐藏 层 的 权重 减 半 。 

丢弃 为 什么 可 以 减少 过 拟 合 ? 原因 为 : 一 般 情 况 下 ,对 于 同一 组 训练 数据 ， 利 用 不 同 的 神 
经 网 络 训练 之 后 ， 求 其 输出 的 平均 值 可 以 减少 过 拟 合 。Dropout 就 是 利用 这 个 原理 ， 每 次 丢掉 
一 半 的 隐藏 层 神经 元 , 相当 于 在 不 同 的 神经 网 络 上 进行 训练 , 这 样 就 减少 了 神经 元 之 间 的 依赖 
性 ， 即 每 个 神经 元 不 能 依赖 于 某 几 个 其 他 的 神经 元 ( 指 层 与 层 之 间 相 连接 的 神经 元 )， 使 神经 
网 络 更 加 能 学 习 到 与 其 他 神经 元 之 间 的 更 加 健壮 的 特征 。Dropout 不 仅 减少 过 拟 合 ， 还 能 提高 
准确 率 。 


10.25 ”代码 实例 


本 节 通 过 将 特征 标准 化 并 应 用 各 种 优化 算法 来 提高 神经 网 络 的 性 能 。 我 们 首先 来 装载 数 
据 : 


import math 


from IPython import display 

from matplotlib import cm 

from matplotlib import gridspec 

from matplotlib import pyplot as plt 
import numpy as np 

import pandas as pd 

from sklearn import metrics 

import tensorflow as tf 

from tensorflow.python.data import Dataset 


tf.logging.set verbosity(tf.logging.ERROR) 
pd.options.display.max rows = 10 
pd.options.display.float format = '(:.1f)'.format 


california housing dataframe = 
pd.read csv("https://storage.googleapis.com/mledu-datasets/california housing 
train.csv", sep-",") 


california housing dataframe = california housing dataframe.reindex( 
np.random.permutation(california housing dataframe.index)) 


定义 预 处 理 函 数 : 


def preprocess features(california housing dataframe) : 
"""Prepares input features from California housing data set. 
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Args: 
california housing dataframe: A Pandas DataFrame expected to contain data 
from the California housing data set. 
Returns: 
A DataFrame that contains the features to be used for the model, including 
synthetic features. 


selected features - california housing dataframe[ 
["latitude", 
"longitude", 
"housing median age", 
"total rooms", 
"total bedrooms", 
"population", 
"households", 
"median income"]] 
processed features - selected features.copy() 
# Create a synthetic feature. 
processed features["rooms per person"] - ( 
california housing dataframe["total rooms"] / 
california housing dataframe ["population"]) 
return processed features 


def preprocess targets(california housing dataframe): 
"""Prepares target features (i.e., labels) from California housing data set. 


Args: 
california housing dataframe: A Pandas DataFrame expected to contain data 
from the California housing data set. 
Returns: 
A DataFrame that contains the target feature. 
"nn 
output targets - pd.DataFrame() 
# Scale the target to be in units of thousands of dollars. 
output targets["median house value"] - ( 
california housing dataframe["median house value"] / 1000.0) 
return output targets 


创建 训练 集 和 验证 集 : 


# Choose the first 12000 (out of 17000) examples for training. 

training examples = 

preprocess features(california housing dataframe.head(12000)) 

training targets = preprocess targets(california housing dataframe.head(12000)) 


# Choose the last 5000 (out of 17000) examples for validation. 
validation examples = 

preprocess features(california housing dataframe.tail(5000)) 
validation targets = 

preprocess targets(california housing dataframe.tail(5000)) 


# Double-check that we've done the right thing. 
print "Training examples summary:" 
display.display(training examples.describe()) 
print "Validation examples summary:" 
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display.display(validation examples.describe()) 


print "Training targets summary:" 
display.display(training targets.describe()) 
print "Validation targets summary:" 
display.display(validation targets.describe()) 


结果 如 图 10-19- F8] 10-22 所 示 。 


Training examples summary 





latitude longitude housing median age total rooms total bedrooms population households median income rooms per person 


count 120000 12000.0 12000.0 12000.0 12000.0 12000.0 12000.0 12000.0 12000.0 
mean 35.6 -119.6 28.6 2639.6 537.6 1422.6 499.5 39 20 
std 24 20 126 2175.5 419.9 11246 382.3 19 12 
min 325 -124.3 10 20 1.0 3.0 1.0 0.5 01 
2596 339 -121.8 180 1454.8 295.0 784.0 281.0 26 15 
50% 342 -118.5 29.0 2122.0 432.0 1161.0 408.0 35 19 
7596 377 -118.0 37.0 3148.0 650.0 1718.0 603.0 48 23 


max 42.0 -114.3 52.0 37937.0 6445.0 28566.0 6082.0 150 552 


10-19. 训练 示例 概括 





Validation examples summary 





latitude longitude housing median age total rooms total bedrooms population households median income rooms per person 


count — 5000.0 5000.0 5000.0 5000.0 5000.0 5000.0 5000.0 5000.0 5000.0 
mean 356 -119.6 28.5 2653.5 543.8 1446.4 505.5 39 20 
std 21 20 125 2190.7 4254 1201.9 389.9 19 10 
min 325 -124.2 20 200 40 170 40 0.5 00 
2596 339 -1218 180 1472.8 302.0 801.0 283.0 26 15 
50% 343 -118.5 29.0 2143.5 439.5 1180.0 4120 35 19 
75% 377 -118.0 37.0 3154.5 647.0 1730.0 609.0 4T 23 








max 419 -114.6 52.0 32054.0 5290.0 35682.0 5050.0 15.0 26.5 


10-20 ”验证 示例 概括 

















Training targets summary: Validation targets summary: 
median house value median house value 

count 12000.0 count 5000.0 
mean 207.3 mean 207.4 
std 116.0 std 11539 
min 15.0 min 15.0 
25% 119.1 25% 120.2 
50% 180.5 50% 179.8 
75% 265.2 75% 264.2 
max 500.0 max 500.0 
图 10-21 训练 目标 概括 图 10-22 验证 目标 概括 


接 下 来 ， 我 们 将 训练 神经 网 络 。 定 义 特征 列 结构 和 输入 函数 : 


def construct feature columns (input features) s 
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"""Construct the TensorFlow Feature Columns. 


Args: 
input features: The names of the numerical input features to use. 
Returns: 
A set of feature columns 
"nn 
return set([tf.feature column.numeric column (my feature) 
for my feature in input features]) 


def my input fn(features, targets, batch size-1, shuffle=True, num epochs=None) : 
"""Trains a linear regression model of one feature. 


Args: 
features: pandas DataFrame of features 
targets: pandas DataFrame of targets 
batch size: Size of batches to be passed to the model 
shuffle: True or False. Whether to shuffle the data. 
num epochs: Number of epochs for which data should be repeated. None - repeat 
indefinitely 
Returns: 
Tuple of (features, labels) for next data batch 


# Convert pandas data into a dict of np arrays. 
features = {key:np.array(value) for key,value in dict(features).items()] 


# Construct a dataset, and configure batching/repeating 
ds = Dataset.from tensor slices((features,targets)) # warning: 2GB limit 
ds = ds.batch (batch size) .repeat (num epochs) 


# Shuffle the data, if specified 
if shuffle: 
ds = ds.shuffle (10000) 


# Return the next batch of data 
features, labels = ds.make one shot iterator().get next() 
return features, labels 


定义 神经 网 络 模型 : 


def train nn regression model( 
my optimizer, 
steps, 
batch size, 
hidden units, 
training examples, 
training targets, 
validation examples, 
validation targets): 
"""Trains a neural network regression model. 
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In addition to training, this function also prints training progress information, 
as well as a plot of the training and validation loss over time. 


Args: 
my optimizer: An instance of ^tf.train.Optimizer', the optimizer to use. 
steps: A non-zero "int', the total number of training steps. A training step 
consists of a forward and backward pass using a single batch. 
batch size: A non-zero “int*, the batch size. 
hidden units: A ^list' of int values, specifying the number of neurons in each 
layer. 
training examples: A "DataFrame' containing one or more columns from 
"california housing dataframe' to use as input features for training. 
training targets: A "DataFrame' containing exactly one column from 
"california housing dataframe* to use as target for training. 
validation examples: A ^DataFrame' containing one or more columns from 
"california housing dataframe' to use as input features for validation. 
validation targets: A "DataFrame' containing exactly one column from 
"california housing dataframe' to use as target for validation. 


Returns: 
A tuple "(estimator, training losses, validation losses)': 
estimator: the trained "DNNRegressor' object. 
training losses: a ‘list’ containing the training loss values taken during 
training. 
validation losses: a `list` containing the validation loss values taken during 
training. 
"nn 


periods - 10 
steps per period - steps / periods 


# Create a linear regressor object. 
my optimizer = tf.contrib.estimator.clip gradients by norm(my optimizer, 5.0) 
dnn regressor - tf.estimator.DNNRegressor( 

feature columns-construct feature columns(training examples), 

hidden units-hidden units, 

optimizer-my optimizer 


# Create input functions 

training input fn - lambda: my input fn(training examples, 
training targets["median house value"], 
batch size-batch size) 

predict training input fn = lambda: my input fn(training examples, 


training targets["median house value"], 
num epochs=1, 
shuffle-False) 
predict validation input fn = lambda: my input fn(validation examples, 
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validation targets["median house value"], 
num epochs-1, 
shuffle-False) 


# Train the model, but do so inside a loop so that we can periodically assess 
# loss metrics. 
print "Training model..." 
print "RMSE (on training data):" 
training rmse - [] 
validation rmse - [] 
for period in range (0, periods): 
# Train the model, starting from the prior state. 
dnn regressor.train( 
input fn-training input fn, 
steps-steps per period 
) 
# Take a break and compute predictions. 
training predictions - 
dnn regressor.predict(input fn-predict training input fn) 
training predictions - np.array([item['predictions'][0] for item in 
training predictions]) 


validation predictions - 
dnn regressor.predict(input fn-predict validation input fn) 

validation predictions - np.array([item['predictions'][0] for item in 
validation predictions]) 


# Compute training and validation loss. 
training root mean squared error = math.sqrt( 
metrics.mean squared error(training predictions, training targets)) 
validation root mean squared error - math.sqrt( 
metrics.mean squared error(validation predictions, validation targets)) 
# Occasionally print the current loss. 
print " period $02d : $0.2f" $ (period, training root mean squared error) 
# Add the loss metrics from this period to our list. 
training rmse.append(training root mean squared error) 
validation rmse.append(validation root mean squared error) 
print "Model training finished." 


# Output a graph of loss metrics over periods. 
plt.ylabel ("RMSE") 

plt.xlabel ("Periods") 

plt.title("Root Mean Squared Error vs. Periods") 
plt.tight layout () 

plt.plot(training rmse, label="training") 
plt.plot (validation rmse, label="validation") 
plt.legend() 


print "Final RMSE (on training data):  $0.2f" $ training root mean squared error 


print "Final RMSE (on validation data): $0.2f" $ 
validation root mean squared error 
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return dnn regressor, training rmse, validation rmse 


开始 训练 : 


= train nn regression model( 
my optimizer-tf.train.GradientDescentOptimizer(learning rate-0.0007), 
steps=5000, 
batch size=70, 
hidden units=[10, 10], 
training examples=training examples, 
training targets=training targets, 
validation examples=validation examples, 
validation_targets=validation_ targets) 


结果 如 图 10-23 和 图 10-24 所 示 。 


Training model... 
RMSE (on training 
period 00 : 154. 
period 01 : 140. 
period 02 : 125.7. 
period 03 : 112 
period 04 : 108. 
period 05 : 109. 
period 06 : 106. 
period 07 : 106. 
period 08 : 107. 
period 09 : 104. 
Model training finished. 
Final RMSE (on training data) 104. 40 
Final RMSE (on validation data): 104.71 


10-23 ”训练 数据 


Root Mean Squared Error vs. Periods 
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图 10-24 训练 结果 
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下 面 进行 线性 缩放 ， 即 将 输入 标准 化 ， 以 使 其 位 于 Cl. 1) 范围 内 ， 这 可 能 是 一 种 良好 的 

















标准 做 法 。 这 样 一 来 ， SGD 在 一 个 维度 中 采用 很 大 步 长 〈 或 者 在 另 一 个 维度 中 采用 很 小 步 长 ) 
时 不 会 受阻 。 这 种 做 法 与 使 用 预 调节 器 (Preconditioner) 的 想法 是 有 联系 的 。 其 代码 如 下 : 


def 


linear scale (series): 


min val = series.min() 

max val = series.max() 

Scale = (max val - min val) / 2.0 

return series.apply(lambda x:((x - min val) / scale) - 1.0) 














下 面 我 们 使 用 线性 缩放 将 特征 标准 化 ， 即 将 输入 标准 化 到 CL, 1) 范围 内 。 一 般 来 说 ， 当 








输入 特征 大 致 位 于 相同 范围 时 ,神经 网 络 的 训练 效果 最 好 。 由 于 标准 化 会 使 用 最 小 值 和 最 大 值 ， 
我 们 必须 确保 在 整个 数据 集中 一 次 性 完成 该 操作 。 我 们 之 所 以 可 以 这 样 做 , 是 因为 所 有 的 数据 
都 在 一 个 DataFrame 中 。 如 果 我 们 有 多 个 数据 集 ， 那 么 最 好 从 训练 集中 导出 标准 化 参数 ， 然 
后 以 相同 的 方式 将 其 应 用 于 测试 集 。 其 代码 如 下 : 


def 





normalize linear scale(examples dataframe): 


"""Returns a version of the input "DataFrame' that has all its features normalized 

linearly.""" 
processed features - pd.DataFrame() 
processed features["latitude"] - linear scale(examples dataframe["latitude"]) 
processed features["longitude"] - 

linear scale(examples dataframe["longitude"]) 
processed features["housing median age"] = 

linear scale(examples dataframe["housing median age"]) 
processed features["total rooms"] - 

linear scale(examples dataframe["total rooms"]) 
processed features["total bedrooms"] = 

linear scale(examples dataframe["total bedrooms"]) 
processed features["population"] = 

linear scale (examples dataframe["population"]) 
processed features["households"] = 

linear scale (examples dataframe["households"]) 
processed features["median income"] = 

linear scale(examples dataframe["median income"]) 
processed features["rooms per person"] - 

linear scale(examples dataframe["rooms per person"]) 
return processed features 


normalized dataframe = 

normalize linear scale(preprocess features(california housing dataframe)) 
normalized training examples = normalized dataframe.head(12000) 
normalized validation examples = normalized dataframe.tail(5000) 


332 


train nn regression model( 
my optimizer-tf.train.GradientDescentOptimizer(learning rate-0.005), 
steps=2000, 
batch size=50, 
hidden units-[10, 10], 
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training examples-normalized training examples, 
training targets-training targets, 

validation examples-normalized validation examples, 
validation targets-validation targets) 


结果 如 图 10-25、 图 10-26 所 示 。 


Training model... 
RMSE (on training data): 
period 00 : 
period 01 : 
period 02 : 
period 03 : 
period 04 : 
period 05 : 
period 06 : 
period 07 : 
period 08 : 
period 09 : 72. 
Model training finished. 
Final RMSE (on training data): 
Final RMSE (on validation data): 


1025 训练 数据 


Root Mean Squared Error vs. Periods 
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FA 10-26 训练 结果 


下 面 我 们 尝试 其 他 优化 器 ， 使 用 AdaGrad 和 Adam 优化 器 并 对 比 其 效果 。AdaGrad 的 
核心 是 灵活 地 修改 模型 中 每 个 系数 的 学 习 率 。 该 优化 器 对 于 凸 优化 问题 非常 有 效 , 但 不 一 定 适 
合 非 凸 优化 问题 的 神经 网 络 训 练 。 通 过 指定 AdagradOptimizer (而 不 是 
GradientDescentOptimizer) 来 使 用 AdaGrad。 对 于 AdaGrad， 可 能 需要 使 用 较 大 的 学 习 率 。 

对 于 非 凸 优化 问题 ，Adam 有 时 比 AdaGrad 更 有 效 。 要 使 用 Adam， 可 调用 
tf.train.AdamOptimizer 方法 。 此 方法 将 几 个 可 选 超 参数 作为 参数 ， 但 解决 方案 仅 指定 其 中 一 个 


(leaming rate) 。 在 应 用 设置 中 ， 我 们 应 该 谨慎 指定 和 调整 可 选 超 参数 。 
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首先 ， 我 们 来 尝试 AdaGrad: 


, adagrad training losses, adagrad validation losses = 
train nn regression model( 
my optimizer-tf.train.AdagradOptimizer (learning rate-0.5), 
steps=500, 
batch size=100, 
hidden units=[10, 10], 
training examples=normalized training examples, 
training targets=training targets, 
validation examples=normalized validation examples, 
validation_targets=validation_targets) 


结果 如 图 10-27、 图 10-28 所 示 。 


Training model... 
RMSE (on trai 
period 
period 
period 02 
period 03 : 
period 04 : 
period 0 
period 
period ; 
period 08 : 
period 09 : 
Model training finished. 
Final RMSE (on training data): 68.99 
Final RMSE (on validation data): 69.82 





10-27 训练 数据 


Root Mean Squared Error vs. Periods 
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图 10-28 训练 结果 
现在 ， 我 们 来 尝试 Adam: 


, adam training losses, adam validation losses = train nn regression model( 
my optimizer-tf.train.AdamOptimizer(learning rate-0.009), 
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steps=500, 
batch size=100, 
hidden units=[10, 10], 





training examples=normalized training examples, 
training targets=training targets, 

validation examples=normalized validation examples, 
validation targets-validation targets) 


结果 如 图 10-29、 图 10-30 所 示 。 





Training 
RMSE (on 
period 
period 
period 
period 
period 
period 
period 
period 
period 
period 


model... 


tra 


00 : 


01 


05:7 
06 : 


in 


ing data): 
187.01 


: 119.20 
02 : 
03 : 
04 : 


07 : 
08 : 


09 : 





69. 65 


Model training finished. 
Final RMSE (on training data): 69. 65 
Final RMSE (on validation data): 70.49 





并 输出 损失 指标 的 图 表 : 


plt.ylabel("RMSE") 
plt.xlabel ("Periods") 


10-29 训练 数据 


Root Mean Squared Error vs. Periods 


4 6 8 
Periods. 


图 10-30 训练 结果 


plt.title("Root Mean Squared Error vs. Periods") 
plt.plot(adagrad training losses, label-'Adagrad training!) 
plt.plot(adagrad validation losses, label-'Adagrad validation') 
plt.plot(adam training losses, label-'Adam training') 
plt.plot(adam validation losses, label-'Adam validation') 


_ = plt.legend() 
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结果 如 图 10-31 所 示 。 





图 10-31 训练 结果 
我 们 还 可 以 尝试 对 各 种 特征 使 用 其 他 标准 化 方法 , 以 进一步 提高 性 能 。 如 果 仔细 查看 转换 
后 数据 的 汇总 统计 信息 ,可 能 会 注意 到 ,对 某 些 特征 进行 线性 缩放 会 使 其 聚集 到 接近 -1 的 位 
置 。 例 如 ， 很 多 特征 的 中 位 数 约 为 -0.8， 而 不 是 0.0. 
_ = training examples.hist (bins=20, figsize=(18, 12), xlabelsize=2) 


结果 如 图 10-32 所 示 。 
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图 10-32 很 多 特征 的 中 位 数 约 为 -0.8 
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通过 选择 其 他 方式 来 转换 这 些 特征 ， 可 能 会 获得 更 好 的 效果 。 例如， 对 数 缩放 可 能 对 某 些 
特征 有 帮助 。 或 者 ， 截 取 极 端 值 可 能 会 使 剩余 部 分 的 信息 更 加 丰富 。 


def log normalize(series): 
return series.apply(lambda x:math.log(x*1.0)) 


def clip(series, clip to min, clip to max): 
return series.apply (lambda x:( 
min(max(x, clip to min), clip to max))) 


def z score normalize (series): 
mean = series.mean() 
std dv = series.std() 
return series.apply(lambda x:(x - mean) / std dv) 


def binary threshold(series, threshold): 
return series.apply(lambda x:(1 if x » threshold else 0)) 


上 述 代码 包含 一 些 额外 的 标准 化 函数 。 我 们 可 尝试 其 中 的 某 些 函 数 ， 或 添加 自己 的 函数 。 
要 注意 的 是 ， 若 将 目标 标准 化 ， 则 需要 将 网 络 的 预测 结果 非 标准 化 ， 以 便 比较 损失 函数 的 值 。 
以 上 这 些 只 是 我 们 能 想到 的 处 理 数 据 的 几 种 方法 ， 其 他 转换 方式 可 能 会 更 好 。households、 
median income 和 total bedrooms 在 对 数 空间 内 均 呈 正 态 分 布 。 如 果 latitude, longitude 和 
housing median age 像 之 前 一 样 进行 线性 缩放 ， 效 果 可 能 会 更 好 。population、total rooms 和 
rooms per person 具有 几 个 极端 离 群 值 。 这 些 值 似乎 过 于 极端 ,以 至 于 我 们 无 法 利用 对 数 标准 
化 处 理 这 些 离 群 值 。 因 此 ， 我 们 直接 截取 掉 这 些 值 。 


def normalize(examples dataframe): 

"""Returns a version of the input ‘DataFrame* that has all its features 
normalized.""" 

processed features - pd.DataFrame() 





processed features["households"] = 

log normalize (examples dataframe["households"]) 
processed features["median income"] = 

log normalize(examples dataframe["median income"]) 
processed features["total bedrooms"] = 

log normalize (examples dataframe["total bedrooms"]) 


processed features["latitude"] - linear scale(examples dataframe["latitude"]) 
processed features["longitude"] = 

linear scale(examples dataframe["longitude"]) 
processed features["housing median age"] = 

linear scale(examples dataframe["housing median age"]) 


processed features["population"] = 

linear scale(clip(examples dataframe["population"], 0, 5000)) 
processed features["rooms per person"] — 

linear scale(clip(examples dataframe["rooms per person"], 0, 5)) 
processed features["total rooms"] - 
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linear scale(clip(examples dataframe["total rooms"], 0, 10000)) 
return processed features 


normalized dataframe — 

normalize linear scale(preprocess features(california housing dataframe)) 
normalized training examples - normalized dataframe.head (12000) 
normalized validation examples = normalized dataframe.tail(5000) 


= train nn regression model( 
my optimizer-tf.train.AdagradOptimizer(learning rate-0.15), 
steps=1000, 
batch size=50, 
hidden units=[10, 10], 
training examples=normalized training examples, 
training targets=training targets, 
validation examples=normalized validation examples, 
validation_targets=validation_ targets) 


结果 如 图 10-33、 图 10-34 所 示 。 


Training model... 
RMSE (on 
period 
period 7 
period 02 : 71.1 
period 70. 
period 70. 7 


period 69. 

period 69. 

period 69. 62 

period 70. 

period 09 : 69.27 

Model training finished. 

(on training data): 69.22 
(on validation data): 69.97 


10-33 训练 数据 


Root Mean Squared Error vs. Periods 





0 2 4 6 8 
Periods. 


图 10-34 训练 结果 
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下 面 我 们 训练 仅 使 用 纬度 和 经 度 作 为 特征 的 神经 网 络 模型 。 房地产 商 喜欢 说 , 地 段 是 房价 
的 唯一 重要 特征 。 我 们 来 看 看 能 否 通过 训练 仅 使 用 纬度 和 经 度 作为 特征 的 模型 来 证 实 这 一 点 。 
只 有 神经 网 络 模型 可 以 从 纬度 和 经 度 中 学 会 复杂 的 非 线 性 规律 , 才能 达到 我 们 想 要 的 效果 。 注 
意 : 我 们 可 能 需要 一 个 网 络 结构 ， 其 层 数 比 之 前 在 练习 中 使 用 的 要 多 。 


def location location location (examples dataframe) : 
"""Returns a version of the input "DataFrame' that keeps only the latitude and 
longitude.""" 
processed features = pd.DataFrame() 
processed features["latitude"] - linear scale(examples dataframe["latitude"]) 
processed features["longitude"] - 
linear scale(examples dataframe["longitude"]) 
return processed features 




















111 dataframe = 

location location location(preprocess features(california housing dataframe)) 
111 training examples = 111 dataframe.head(12000) 

lll validation examples - 111 dataframe.tail(5000) 


7 train nn regression model( 
my optimizer-tf.train.AdagradOptimizer(learning rate-0.05), 
steps=500, 
batch size=50, 
hidden units=[10, 10, 5, 5, 5], 
training examples-111 training examples, 
training targets=training targets, 
validation examples-111 validation examples, 
validation targets-validation targets) 


结果 如 图 10-35、 图 10-36 所 示 。 





Training model... 
RMSE (on training data): 
period 00 : 108.62 
period 01 : 105.26 
period 02 : 102.90 
period 03 ; 101.41 
period 04 : 100.59 
period 05 : 100.35 
period 06 : 100.45 
period 07 : 99.57 
period 08 : 99.20 
period 09 : 98.91 
Model training finished 
Final RMSE (on training data): 98.91 
Final RMSE (on validation data): 98.99 


图 10-35 训练 数据 
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Root Mean Squared Error vs. Periods 


— taining 


102 


0 2 4 6 8 
Periods 


10-36 训练 结果 


TUER, XET FURAPBEIERIBUS, RARER. 2928. JU HB CE ES AA 
可 能 有 较 大 差异 。 


10.3 多 类 别 神经 网 络 


在 前 面 的 章节 中 , 我 们 讲解 了 二 元 分 类 模型 ， 该 模型 可 从 两 个 可 能 的 选项 中 选择 其 一 。 例 
如 ,特定 电子 邮件 是 垃圾 邮件 还 是 非 垃圾 邮件 ,特定 肿瘤 是 恶性 肿瘤 还 是 良性 肿瘤 。 设 有 分 类 
阔 值 的 逻辑 回归 就 非常 适合 用 来 处 理 这 类 二 元 类 别 分 类 问题 。 但 是 在 现实 世界 中 , 我 们 通常 不 
仅仅 在 两 个 类 别 之 间 做 出 选择 ， 有 时 需要 从 一 系列 类 别 中 的 某 个 类 别 内 选择 一 个 标签 ， 例 如 : 


© 那 架 飞 机 是 波音 747、 空 中 客车 320、 波 音 777 还 是 直升机 ? 
@ ”这 是 一 张 苹果 、 熊 、 糖 果 、 狗 还 是 鸡蛋 的 图 片 ? 


现实 世界 中 的 一 些 多 类 别 问 题 需 要 从 数 百 万 个 类 别 中 进行 选择 。 例 如 , 一 个 几乎 能 够 识别 
任何 事物 图 片 的 多 类 别 分 类 模型 。 本 节 将 研究 多 类 别 分 类 。 


10.3.0. 一 对 多 方法 


我 们 可 以 借助 二 元 类 别 分 类 开发 出 一 些 新 技术 , 比如 一 对 多 的 多 类 别 分 类 。 我 们 将 模型 中 
的 一 个 逻辑 回归 输出 节点 用 于 每 个 可 能 的 类 别 ( 见 图 10-37) 。 因 此 , 一 个 节点 可 能 会 识别 “这 
是 苹果 吗 ? ”， 是 /不 是 。 另 一 个 节点 可 能 会 识别 “这 是 能 的 照片 吗 ? ”， 是 /不 是 。 第 三 个 节 
点 可 能 会 识别 “这 是 糖果 吗 ? ”， 是 /不 是 。 我 们 将 一 个 输出 节点 用 于 所 观察 的 每 个 可 能 的 类 
别 ， 同 时 对 这 些 节 点 进行 训练 ， 便 可 以 在 深度 网 络 中 做 到 这 一 点 。 
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苹果 : 是 / 否 ? 
Re: 是 / 否 ? 
3j OH 
> : X 糖果 : 是 / 否 ? 
39: 是 / 否 ? 


蛋 : 是 / 否 ? 





图 10-37 一 对 多 神经 网 络 


一 对 多 提供 了 一 种 利用 二 元 分 类 的 方法 。 鉴 于 一 个 分 类 问题 会 有 N 个 可 行 的 解决 方案 ， 
一 对 多 解决 方案 包括 N 个 单独 的 二 元 分 类 器 ， 每 个 可 能 的 结果 对 应 一 个 二 元 分 类 器 。 在 训练 
期 间 , 模型 会 训练 一 系列 二 元 分 类 器 ,使 每 个 分 类 器 都 能 回答 单独 的 分 类 问题 。 以 一 张 狗 的 昭 
片 为 例 ， 可 能 需要 训练 5 个 不 同 的 识别 器 ， 其 中 4 个 将 图 片 看 作 负 样本 (不 是 狗 ) ，1 个 将 图 
片 看 作 正 样本 (是 狗 ) ， 即 : 

这 是 一 张 苹果 的 图 片 吗 ? 不 是 。 

这 是 一 张 能 的 图 片 吗 ? 不 是 。 

这 是 一 张 糖果 的 图 片 吗 ? 不 是 。 

这 是 一 张 狗 的 图 片 吗 ? 是 。 

这 是 一 张 鸡蛋 的 图 片 吗 ? 不 是 。 

当 类 别 总 数 较 少时 , 这 种 方法 比较 合理 , 但 随 着 类 别 数量 的 增加 , 其 效率 会 变 得 越 来 越 低 。 
我 们 可 以 借助 深度 神经 网 络 (在 该 网 络 中 , 每 个 输出 节点 表示 一 个 不 同 的 类 别 ) 创建 明显 更 加 
高 效 的 一 对 多 模型 。 


10.3.2 Softmax 


PERE Bip, S4 plos PI EUR T — 2830. (ln, PE KR JETER, 
要 么 是 梨 ， 要 么 是 苹果 。 在 这 种 情况 下 ， 我 们 希望 所 有 输出 节点 的 概率 总 和 正好 是 1。 要 实现 
这 一 点 ， 可 以 使 用 一 种 名 为 Softmax 的 函数 。 

我 们 已 经 知道 ， 逻 辑 回归 可 生成 介 于 0 和 1.0 之 间 的 小 数 。 例 如 ， 某 电子 邮件 分 类 器 的 
逻辑 回归 输出 值 为 0.8， 表 明 电 子 邮 件 是 垃圾 邮件 的 概率 为 80%， 不 是 垃圾 邮件 的 概率 为 
20%。 很 明显 ， 一 封 电 子 邮 件 是 垃圾 邮件 或 非 垃圾 邮件 的 概率 之 和 为 1.0。Softmax 将 这 一 想 
法 延伸 到 多 类 别 领 域 。 也 就 是 说 ,在 多 类 别 问 题 中 ，Softmax 会 为 每 个 类 别 分 配 一 个 用 小 数 表 
示 的 概率 。 这 些 用 小 数 表 示 的 概率 相 加 之 和 必须 是 1.0。 与 其 他 方式 相 比 ， 这 种 附加 限制 有 助 
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于 让 训练 过 程 更 快速 地 收敛 。Softmax 本 质 上 是 对 我 们 所 使 用 的 这 种 逻辑 回归 的 泛 化 ， 只 不 过 
泛 化 成 了 多 个 类 别 。 在 遇 到 单一 标签 的 多 类 别 分 类 问题 时 ， 我 们 会 使 用 Softmax。 
以 某 图 片 分 析 为 例 ，Softmax 可 能 会 得 出 图 片 属于 某 一 特定 类 别 的 概率 ， 如 表 10-1 所 示 。 


表 10-1 图 片 属于 某 一 特定 类 别 的 概率 

















Sofimax 层 是 紧 挨 着 输出 层 ， 并 在 输出 层 之 前 的 神经 网 络 层 。Softmax 层 必须 和 输出 层 拥 
有 一 样 的 节点 数 〈 见 图 10-38) 。 





10-38 神经 网 络 中 的 Softmax 层 
Softmax 方程 式 如 下 : 
exe) 


ply = jix) = Ser) 


此 公式 本 质 上 是 将 逻辑 回归 公式 延伸 到 了 多 类 别 。 以 下 是 Softmax 的 变 体 : 

€ ”完整 Softmax 是 我 们 一 直 以 来 讨论 的 Softmax， 也 就 是 说 ，Softmax 针对 每 个 可 能 的 
类 别 计算 概率 。 

€ ”候选 采样 指 Softmax 针对 所 有 正 类 别 标签 计算 概率 , 但 仅 针对 负 类 别 标签 的 随机 样本 
计算 概率 . 例如 ,如 果 想 要 确定 菜 张 输入 图 片 是 波音 737 飞机 还 是 波音 747 飞机 的 图 
片 ,就 不 必 针 对 每 个 非 飞 机 样本 提供 概率 。 类 别 数量 较 少 时 , 完整 Softmax 代价 很 小 ， 
但 随 着 类 别 数量 的 增加 , 代价 会 变 得 极其 高 帅 。 候选 采样 可 以 提高 处 理 具有 大 量 类 别 
问题 的 效率 。 

€  Softmax 假设 每 个 样本 只 是 一 个 类 别 的 成 员 。 但 是 , 一 些 样本 可 以 同时 是 多 个 类 别 的 
成 员 。 对 于 此 类 示例 : 
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» 不 能 使 用 Softmax。 
> 必须 依赖 多 个 逻辑 回归 。 


例如 ， 假 设 样本 是 只 包含 一 项 内 容 〈 一 块 水 果 ) 的 图 片 。Softmax 可 以 确定 该 内 容 是 梨 、 
梅子 、 苹 果 等 的 概率 。 如 果 样 本 是 包含 各 种 各 样 内 容 〈 几 碗 不 同 种 类 的 水 果 ) 的 图 片 ， 那 么 必 
须 改 用 多 个 逻辑 回归 。 

总 之 ， 在 训练 多 类 别 分 类 时 ， 我 们 有 几 个 选项 可 以 选择 。 一 个 是 使 用 完整 Softmax, 此 
时 训练 成 本 相对 昂贵 。 想 象 一 下 ,如 果 有 一 百 万 个 类 别 , 那么 基本 上 需要 为 每 个 示例 分 别 训练 
一 百 万 个 输出 节点 。 我 们 可 以 通过 进行 “候选 采样 ”来 提高 一 点 效率 。 





10.3.3 ”代码 实例 


本 节 对 手写 数字 进行 分 类 。 我 们 训练 线性 模型 和 神经 网 络 ， 对 传统 MNIST 数据 集中 的 手 
写 数字 进行 分 类 , 并 比较 线性 分 类 模型 和 神经 网 络 分 类 模型 的 效果 , 最 后 可 视 化 神经 网 络 隐藏 
层 的 权重 。 我 们 的 目标 是 将 每 个 输入 图 片 与 正确 的 数字 相对 应 。 我 们 会 创建 一 个 包含 几 个 隐藏 
层 的 神经 网 络 ， 并 在 顶部 放置 一 个 归 一 化 指数 层 ， 以 选 出 最 合适 的 类 别 。 下 面 来 看 一 下 代码 。 

首先 , 下 载 数据 集 , 导入 TensorFlow 和 其 他 实用 工具 , 并 将 数据 加 载 到 Pandas DataFrame。 
此 数据 是 原始 MNIST 训练 数据 的 样本 ， 我 们 随机 选择 了 10000 行 。 


!wget https://storage.googleapis.com/mledu-datasets/mnist train small.csv -O 
/tmp/mnist train small.csv 


结果 如 图 10-39 所 示 。 


--2018-06-05 06:05:27-- https://storage.googleapis.com/mledu-datasets/mnist train small.csv 
Resolving storage.googleapis.com (storage.googleapis.com)... 74.125.199.128, 2607:f8b0:400e:c04::80 
Connecting to storage.googleapis.com (storage.googleapis.com)|74.125.199.128|:443... connected. 
HTTP request sent, awaiting response... 200 OK 

Length: 36523880 (35M) [application/octet-stream] 


Saving to: */tmp/mnist train small.csv' 


/tmp/mnist train sm 100%[ >] 34.83M  125MB/s in 0.3s 





2018-06-05 06:05:27 (125 MB/s) - '/tmp/mnist train small.csv' saved [36523880/36523880] 
图 10-39 训练 结果 
对 这 10000 行 数据 进行 训练 : 


import glob 
import io 
import math 
import os 


from IPython import display 

from matplotlib import cm 

from matplotlib import gridspec 
from matplotlib import pyplot as plt 
import numpy as np 

import pandas as pd 

import seaborn as sns 
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from sklearn import metrics 
import tensorflow as tf 
from tensorflow.python.data import Dataset 


tf.logging.set verbosity(tf.logging.ERROR) 
pd.options.display.max rows = 10 
pd.options.display.float format = '{:.1f}'.format 


mnist dataframe = pd.read csv( 
io.open("/tmp/mnist train small.csv", "r"), 
sep-",", 
header-None) 


# Use just the first 10,000 records for training/validation 

mnist dataframe = mnist dataframe.head (10000) 

mnist dataframe — 

mnist dataframe.reindex (np.random.permutation (mnist dataframe.index)) 
mnist dataframe.head() 


结果 如 图 10-40 所 示 。 


775 776 777 778 779 780 781 782 783 784 


284 
3861 


6946 
6586 


5 rows x 785 columns 





图 10-40 10000 行 数据 执行 结果 


如 图 10-40 所 示 ， 第 一 列 中 包含 类 别 标签 。 其 余 列 中 包含 特征 值 ， 每 个 像素 对 应 一 个 特征 
fA, A 28X28-784 个 像素 值 ， 其 中 大 部 分 像素 值 为 零 。 

如 图 10-41 所 示 ， 这 些 样 本 都 是 分 辨 率 相对 较 低 、 对 比 度 相 对 较 高 的 手写 数字 图 片 。0-9 
十 个 数字 中 的 每 个 可 能 出 现 的 数字 均 由 唯一 的 类 别 标签 表示 。 因此 , 这 是 一 个 具有 10 个 类 别 
的 多 类 别 分 类 问题 。 现 在 ， 我 们 解析 一 下 标签 和 特征 ， 并 查看 几 个 样本 注意 loc 的 使 用 ， 
借助 loc， 我 们 能 够 基于 原来 的 位 置 抽 出 各 列 ， 因 为 此 数据 集中 没有 标题 行 ) 。 


R 


= 
= 
AARET 
ecccoces oR BEMe - 





图 10-41 手写 数字 
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def parse labels and features (dataset): 
"""Extracts labels and features. 


This is a good place to scale or transform the features if needed. 


Args: 
dataset: A Pandas ^"Dataframe', containing the label on the first column and 
monochrome pixel values on the remaining columns, in row major order. 
Returns: 
A ^tuple' "(labels, features) ~: 
labels: A Pandas ^Series'. 
features: A Pandas "DataFrame'. 


labels - dataset[0] 


# DataFrame.loc index ranges are inclusive at both ends. 
features = dataset.loc[:,1:784] 

# Scale the data to [0, 1] by dividing out the max value, 255. 
features - features / 255 


return labels, features 


训练 数据 集 代码 如 下 : 


training targets, training examples = 
parse labels and features (mnist dataframe[:7500]) 
training examples.describe() 


训练 数据 集 的 结果 如 图 10-42 所 示 。 


T z 3 7 E g 7 g 3 3 Tp 7 oT 
count 75000 75000 7500.0 75000 7500.0 7500.0 75000 75000 75000 75000 75000 7500.0 75000 
men 00 00 00 oo 00 oo 00 00 00 00 oo 00 
std 00 00 00 oo oo oo 00 00 00 00 oo 00 
min — 00 00 00 oo oo oo 00 00 00. oo oo 00 


25% 00 00 00 oo oo oo oo 00 og oo oo 00 
50% 00 00 00 oo 00 oo 00 00 00 00 oo 00 
oo 00 00 oo oo oo 00 00 op 00 oo o0 
00 00 0 00 00 00 00 00 00 00 1 03 oo 00 





图 10-42 ”训练 数据 集 的 结果 
验证 数据 集 代 码 如 下 : 


validation targets, validation examples = 
parse labels and features (mnist dataframe[7500:10000]) 
validation examples.describe() 


验证 数据 集 的 结果 如 图 10-43 所 示 。 
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1 2 3 4 5 n 7 s 9 i19. m Te 77 mm 79 m m m 783 7 
count 25000 2500.0 25000 25000 25000 25000 25000 2500.0 25000 25000 25000 25000 25000 25000 25000 25000 25000 25000 25000 25000 
mem 00 00 oo 00 00 00 00 00 00 00 00 oo oo 00 00 00 00 00 00 00 
std 00 00 oo 00 00 00 00 00 00 00 00 oo 00 00 00 200 00 00 00 00 
mi — 00 00 00 00 00 00 00 00 00 o% 00 oo oo 00 00 00 00 00 00 00 
2% oo oo oo oo oo oo oo 00 oo o0 00 00 oo 00 oo 200 00 oo oo oo 
s% 00 00 00 00 00 00 00 00 00 00 00 oo 200 00 00 00 00 00 00 00 
7% 00 oo 00 00 00 00 00 00 00 00 00 oo 200 00 00 200 00 00 090 00 
ma 00 00 00 00 00 00 00 09 00 00 10 10 08 02 10 02 00 00 00 00 
8 rows x 784 columns 








图 10-43 ”验证 数据 集 的 结果 
下 面 显示 一 个 随机 样本 及 其 对 应 的 标签 ， 代 码 如 下 : 


rand example = np.random.choice(training examples.index) 

, aX = plt.subplots() 

ax.matshow(training examples.loc[rand example].values.reshape(28, 28)) 
ax.set title("Label: $i" $ training targets.loc[rand example] ) 
ax.grid(False) 


结果 如 图 10-44 所 示 。 




















5 
图 10-44 一 个 随机 样本 及 其 对 应 的 标签 


下 面 我 们 为 MNIST 构建 线性 模型 。 首 先 ， 创 建 一 个 基准 模型 ， 作 为 比较 对 象 。 
LinearClassifier 可 提供 一 组 k 类 一 对 多 分 类 器 ， 每 个 类 别 〈 共 k 个 ) 对 应 一 个 分 类 器 。 除 了 
报告 准确 率 和 绘制 对 数 损失 函数 随时 间 变 化 的 曲线 图 之 外 , 我 们 还 展示 了 一 个 混淆 和 矩阵。 混淆 
矩阵 会 显示 错误 分 类 为 其 他 类 别 的 类 别 。 另 外 ， 我 们 使 用 log loss 函数 跟踪 模型 的 错误 。 读 者 
不 应 将 此 函数 与 用 于 训练 的 LinearClassifier 内 部 损失 函数 相 混淆 。 


def construct feature columns () : 
"""Construct the TensorFlow Feature Columns. 


Returns: 
A set of feature columns 
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# There are 784 pixels in each image 
return set([tf.feature column.numeric column('pixels', Shape-784)]) 


接着 ， 我 们 会 对 训练 和 预测 使 用 单独 的 输入 函数 ， 并 将 这 些 函 数 分别 嵌 套 在 
create training input fn() 和 create predict input 名 (0 中, 这样 一 来 , 我 们 就 可 以 调用 这 些 函 数 ， 
以 返回 相应 的 _input_ fn， 并 将 其 传递 到 .train0 和 .predict0 中 调用 。 其 代码 如 下 : 


def create training input fn(features, labels, batch size, num epochs-None, 
shuffle-True): 
"""A custom input fn for sending MNIST data to the estimator for training. 














Args: 
features: The training features. 
labels: The training labels. 
batch size: Batch size to use during training. 


Returns: 
A function that returns batches of training features and labels during 
training. 
"nn 
def input fn(num epochs-None, shuffle-True): 
# Input pipelines are reset with each call to .train(). To ensure model 
# gets a good sampling of data, even when steps is small, we 
# shuffle all the data before creating the Dataset object 
idx = np.random.permutation(features.index) 
raw features = ("pixels":features.reindex(idx)) 
raw targets = np.array (labels [idx]) 


ds = Dataset.from tensor slices((raw features,raw targets)) # warning: 2GB 
limit 
ds = ds.batch(batch size).repeat (num epochs) 


if shuffle: 
ds = ds.shuffle(10000) 


# Return the next batch of data 
feature batch, label batch - ds.make one shot iterator().get next() 
return feature batch, label batch 


return input fn 
def create predict input fn(features, labels, batch size): 
"""A custom input fn for sending mnist data to the estimator for predictions. 





Args: 
features: The features to base predictions on. 
labels: The labels of the prediction examples. 


Returns: 
A function that returns features and labels for predictions. 
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def input fn(): 
raw features = {"pixels": features.values} 
raw targets = np.array(labels) 


ds = Dataset.from tensor slices((raw features, raw targets)) # warning: 2GB 
limit 
ds = ds.batch (batch size) 


# Return the next batch of data 
feature batch, label batch = ds.make one shot iterator().get next() 
return feature batch, label batch 


return input fn 


def train linear classification model ( 
learning rate, 
steps, 
batch size, 
training examples, 
training targets, 
validation examples, 
validation targets): 
"""Trains a linear classification model for the MNIST digits dataset. 


In addition to training, this function also prints training progress information, 
a plot of the training and validation loss over time, and a confusion 
matrix. 


Args: 

learning rate: An “int*, the learning rate to use. 

steps: A non-zero ‘int*, the total number of training steps. A training step 
consists of a forward and backward pass using a single batch. 

batch size: A non-zero “int*, the batch size. 

training examples: A 'DataFrame' containing the training features. 

training targets: A ^DataFrame' containing the training labels. 

validation examples: A "DataFrame' containing the validation features. 

validation targets: A "DataFrame' containing the validation labels. 


Returns: 
The trained "LinearClassifier' object. 





periods - 10 


steps per period - steps / periods 

# Create the input functions. 

predict training input fn = create predict input fn( 
training examples, training targets, batch size) 

predict validation input fn = create predict input fn( 
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validation examples, validation targets, batch size) 
training input fn - create training input fn( 
training examples, training targets, batch size) 


# Create a LinearClassifier object. 
my optimizer - tf.train.AdagradOptimizer(learning rate-learning rate) 
my optimizer - tf.contrib.estimator.clip gradients by norm(my optimizer, 5.0) 
classifier = tf.estimator.LinearClassifier( 
feature columns-construct feature columns(), 
n classes-10, 
optimizer-my optimizer, 
config-tf.estimator.RunConfig(keep checkpoint max-1) 


# Train the model, but do so inside a loop so that we can periodically assess 
# loss metrics. 
print "Training model..." 
print "LogLoss error (on validation data) :" 
training errors = [] 
validation errors = [] 
for period in range (0, periods): 
# Train the model, starting from the prior state. 
classifier.train( 
input fn=training input fn, 
steps=steps per period 


# Take a break and compute probabilities. 

training predictions = 
list (classifier.predict (input fn=predict training input fn)) 

training probabilities = np.array([item['probabilities'] for item in 
training predictions]) 

training pred class id = np.array([item['class ids'][0] for item in 
training predictions]) 

training pred one hot = 
tf.keras.utils.to categorical(training pred class id,10) 


validation predictions = 
list (classifier.predict (input fn=predict validation input fn) 

validation probabilities = np.array([item['probabilities'] for item in 
validation predictions]) 

validation pred class id = np.array([item['class ids'][0] for item in 
validation predictions]) 

validation pred one hot = 
tf.keras.utils.to categorical (validation pred class id,10) 


# Compute training and validation errors. 
training log loss=metrics.log loss(training targets, training pred one hot) 
validation log loss = metrics.log loss(validation targets, 
validation pred one hot) 
# Occasionally print the current loss. 
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print " period $02d : $0.2f" $ (period, validation log loss) 
# Add the loss metrics from this period to our list. 
training errors.append(training log loss) 

validation errors.append(validation log loss) 


print "Model training finished." 


+ 


Remove event files to save disk space. 
= map(os.remove, glob.glob(os.path.join(classifier.model dir, 


'events.out.tfevents*'))) 


+ 


Calculate final predictions (not probabilities, as above). 


final predictions = classifier.predict (input fn=predict validation input fn) 
final predictions = np.array([item['class ids'][0] for item in 
final predictions]) 


accuracy = metrics.accuracy score(validation targets, final predictions) 
print "Final accuracy (on validation data): $0.2f" $ accuracy 


+ 


Output a graph of loss metrics over periods. 


plt.ylabel ("LogLoss") 

plt.xlabel ("Periods") 

plt.title("LogLoss vs. Periods") 

plt.plot (training errors, label="training") 
plt.plot (validation errors, label="validation") 
plt.legend() 

plt.show() 


+ 


Output a plot of the confusion matrix. 


cm = metrics.confusion matrix (validation targets, final predictions) 


+ 
+ 


Normalize the confusion matrix by row (i.e by the number of samples 
in each class) 


cm normalized = cm.astype ("float") / cm.sum(axis-1)[:, np.newaxis] 
ax = sns.heatmap (cm normalized, cmap="bone r") 

ax.set aspect (1) 

plt.title ("Confusion matrix") 

plt.ylabel ("True label") 

plt.xlabel ("Predicted label") 

plt.show () 


return classifier 





下 面 我 们 调试 批量 大 小 、 学 习 速率 和 步 数 三 个 超 参数 进行 试验 。 我 们 的 目标 是 让 准确 率 约 














为 0.9。 其 代码 如 下 : 
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train linear classification model( 
learning rate-0.03, 

steps-1000, 

batch size-30, 

training examples-training examples, 
training targets-training targets, 
validation examples-validation examples, 


validation targets-validation targets) 


结果 如 图 10-45、 图 10-46 所 示 。 





period 
period 
period 
period 
period 
period 
period 
period 
period 
period 


LogLoss 





True label 





02 : 
03: 


04 
e5 


06 : 
97 : 
068 : 
09 : 


Training model... 
LogLoss error (on validation data): 
eo : 
el: 


4.61 
4.01 
3.88 
3.79 
3.73 
3.56 
3.48 
3.50 
3.59 
3.50 


Model training finished. 
Final accuracy (on validation data): 0.90 


LogLoss vs. Periods 
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10-45 ”试验 数据 与 结果 


Confusion matrix 
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图 10-46 ”试验 结果 
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下 面 使 用 神经 网 络 蔡 换 线性 分 类 器 。 使 用 DNNClassifier 替换 上 面 的 LinearClassifier, Jf 
查找 可 实现 0.95 或 更 高 准确 率 的 参数 组 合 。 我 们 也 可 以 尝试 Dropout 等 其 他 正则 化 方法 。 
这 些 正则 化 方法 已 记录 在 DNNClassifier 类 的 注释 中 。 除了 神经 网 络 专用 配置 (例如 隐藏 单元 
的 超 参数 ) 之 外 ， 以 下 代码 与 原始 的 LinearClassifer 训练 代码 几乎 完全 相同 。 


def train nn classification model( 
learning rate, 
steps, 
batch size, 
hidden units, 
training examples, 
training targets, 
validation examples, 
validation targets): 
Trains a neural network classification model for the MNIST digits dataset. 














In addition to training, this function also prints training progress information, 
a plot of the training and validation loss over time, as well as a confusion 
matrix. 


Args: 
learning rate: An ^int', the learning rate to use. 
steps: A non-zero ‘int*, the total number of training steps. A training step 
consists of a forward and backward pass using a single batch. 
batch size: A non-zero “int*, the batch size. 
hidden units: A ^list' of int values, specifying the number of neurons in each 
layer. 
training examples: A "DataFrame' containing the training features. 
training targets: A "DataFrame' containing the training labels. 
validation examples: A "DataFrame' containing the validation features. 
validation targets: A "DataFrame' containing the validation labels. 


Returns: 
The trained "DNNClassifier' object. 


periods - 10 
# Caution: input pipelines are reset with each call to train. 
# If the number of steps is small, your model may never see most of the data. 
# So with multiple '.train' calls like this you may want to control the length 
# of training with num epochs passed to the input fn. Or, you can do a really-big 
shuffle, 
# or since it's in-memory data, shuffle all the data in the "input fn'. 
steps per period - steps / periods 
# Create the input functions. 
predict training input fn = create predict input fn( 
training examples, training targets, batch size) 
predict validation input fn = create predict input fn( 
validation examples, validation targets, batch size) 
training input fn - create training input fn( 
training examples, training targets, batch size) 


# Create the input functions. 
predict training input fn = create predict input fn( 
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training examples, training targets, batch size) 
predict validation input fn = create predict input fn( 

validation examples, validation targets, batch size) 
training input fn = create training input fn( 

training examples, training targets, batch size) 


# Create feature columns. 
feature columns - [tf.feature column.numeric column('pixels', shape-784)] 


# Create a DNNClassifier object. 
my optimizer = tf.train.AdagradOptimizer(learning rate=learning rate) 
my optimizer = tf.contrib.estimator.clip gradients by norm(my optimizer, 5.0) 
classifier = tf.estimator.DNNClassifier ( 
feature columns=feature columns, 
n classes=10, 
hidden units=hidden units, 
optimizer=my optimizer, 
config=tf.contrib.learn.RunConfig(keep checkpoint max=1) 


) 


# Train the model, but do so inside a loop so that we can periodically assess 
# loss metrics. 
print "Training model..." 
print "LogLoss error (on validation data) :" 
training errors = [] 
validation errors = [] 
for period in range (0, periods): 
# Train the model, starting from the prior state. 
classifier.train( 
input fn=training input fn, 
steps=steps per period 
) 


# Take a break and compute probabilities. 

training predictions = 
list (classifier.predict (input fn=predict training input fn)) 

training probabilities = np.array([item['probabilities'] for item in 
training predictions]) 

training pred class id = np.array([item['class ids'][0] for item in 
training predictions]) 

training pred one hot = 
tf.keras.utils.to categorical(training pred class id,10) 


validation predictions = 
list (classifier.predict (input fn=predict validation input fn) 

validation probabilities = np.array([item['probabilities'] for item in 
validation predictions]) 

validation pred class id = np.array([item['class ids'][0] for item in 
validation predictions]) 

validation pred one hot = 
tf.keras.utils.to categorical(validation pred class id,10) 


# Compute training and validation errors. 


training log loss=metrics.log loss(training targets, training pred one hot) 
validation log loss - metrics.log loss(validation targets, 
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validation pred one hot) 
# Occasionally print the current loss. 
print " period $02d : $0.2f" $ (period, validation log loss) 
# Add the loss metrics from this period to our list. 
training errors.append(training log loss) 
validation errors.append(validation log 10ss) 
print "Model training finished." 
# Remove event files to save disk space. 
= map(os.remove, glob.glob(os.path.join(classifier.model dir, 
'events.out.tfevents*'))) 


# Calculate final predictions (not probabilities, as above). 
final predictions = classifier.predict(input fn=predict validation input fn) 
final predictions = np.array([item['class ids'][0] for item in 

final predictions]) 


accuracy = metrics.accuracy score(validation targets, final predictions) 
print "Final accuracy (on validation data): $0.2f" % accuracy 


# Output a graph of loss metrics over periods. 
plt.ylabel ("LogLoss") 

plt.xlabel ("Periods") 

plt.title("LogLoss vs. Periods") 
plt.plot(training errors, label-"training") 
plt.plot(validation errors, label-"validation") 
plt.legend() 

plt.show() 


# Output a plot of the confusion matrix. 

cm = metrics.confusion matrix(validation targets, final predictions) 
# Normalize the confusion matrix by row (i.e by the number of samples 
# in each class) 

cm normalized = cm.astype("float") / cm.sum(axis-1)[:, np.newaxis] 
ax = sns.heatmap(cm normalized, cmap-"bone r") 

ax.set aspect(1) 

plt.title("Confusion matrix") 

plt.ylabel("True label") 

plt.xlabel("Predicted label") 

plt.show() 


return classifier 


classifier = train nn classification model ( 
learning rate=0.05, 
steps=1000, 
batch size=30, 
hidden units=[100, 100], 
training examples=training examples, 
training targets=training targets, 
validation examples=validation examples, 
validation_targets=validation targets) 


结果 如 图 10-47、 图 10-48 所 示 。 
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Training model... 
LogLoss error (on validation data): 
period 00 : 4.64 


period 01 : 3.19 
period 02 : 2.94 
period 03 : 2.35 
period 04 : 2.69 
period 05 : 2.20 
period 06 : 2.33 
period 07 : 2.10 
period 08 : 1.93 
period 09 : 1.88 


Model training finished. 
Final accuracy (on validation data): 0.95 


LogLoss vs. Periods 
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10-47 ”试验 数据 与 结果 


Confusion matrix 


3 4 5 6 
Predicted label 








图 10-48 ”试验 结果 
接 下 来 ， 我 们 来 验证 测试 集 的 准确 率 。 


!wget https://storage.googleapis.com/mledu-datasets/mnist test.csv -0 
/tmp/mnist test.csv 


执行 过 程 与 结果 如 图 10-49, K 10-50 所 示 。 
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--2018-06-05 07:15:02-- https://storage.googleapis.com/mledu-datasets/mnist test.csv 

Resolving storage.googleapis.com (storage.googleapis.com)... 74.125.28.128, 2607:f8b0:400e:c02::80 
Connecting to storage.googleapis.com (storage.googleapis.com)|74.125.28.128|:443... connected. 
HTTP request sent, awaiting response... 200 OK 

Length: 18289443 (17M) [application/octet-stream] 

Saving to: ‘/tmp/mnist_test.csv’ 


/tmp/mnist test.csv 196%[== 17.44M --.-KB/s in 0.095 





2018-06-05 07:15:02 (195 MB/s) - '/tmp/mnist test.csv' saved [18289443/18289443] 





10-49 ”验证 测试 集 准确 率 的 执行 过 程 


mnist test dataframe = pd.read csv( 
io.open("/tmp/mnist test.csv", "r"), 
sep=",", 
header=None) 


test targets, test examples = parse labels and features(mnist test dataframe) 
test examples.describe() 


5 * 7 D so de 73 
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00 00 00 00 00 0 0 o. 00 
00 00 00 00 00 00 
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10-50 ”验证 测试 集 准确 率 的 结果 
predict test input fn = create predict input fn( 


test examples, test targets, batch size-100) 


test predictions - classifier.predict(input fn-predict test input fn) 
test predictions - np.array([item['class ids'][0] for item in test predictions]) 


accuracy - metrics.accuracy score(test targets, test predictions) 
print "Accuracy on test data: $0.2f" $ accuracy 


结果 如 图 10-51 所 示 。 
Accuracy on test data: 0.95 
图 10-51 程序 执行 结果 


最 后 ， 可 视 化 第 一 个 隐藏 层 的 权重 。 我 们 先 看 看 模型 的 weights 属性 ， 以 深入 探索 神经 
络 , 并 了 解 它 学 到 了 哪些 规律 。 模 型 的 输入 层 有 784 个 权重 , 对 应 于 28X28 像素 的 输入 图 片 。 
第 一 个 隐藏 层 将 有 784XN 个 权重 , 其 中 N 指 的 是 该 层 中 的 节点 数 。 我 们 可 以 将 这 些 权 重重 新 
变 回 28X28 像素 的 图 片 ， 具 体 方法 是 将 N 个 1X784 权重 的 数组 变形 为 N 个 28X28 大 小 的 
数组 。 运行 以 下 单元 格 , 绘制 权重 曲线 图 。 注意 , 此 单元 格 要 求 名 为 classifier 的 DNNClassifier 
已 经 过 训练 。 
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print classifier.get variable names() 
weights0 = classifier.get variable value("dnn/hiddenlayer 0/kernel") 
print "weights0 shape:", weights0.shape 


num nodes = weights0.shape[1] 
num rows = int(math.ceil(num nodes / 10.0)) 
fig, axes - plt.subplots(num rows, 10, figsize-(20, 2 * num rows)) 
for coef, ax in zip(weights0.T, axes.ravel()): 
# Weights in coef is reshaped from 1x784 to 28x28. 
ax.matshow(coef.reshape (28, 28), cmap-plt.cm.pink) 
ax.set xticks(()) 
ax.set yticks(()) 


plt.show() 


结果 如 图 10-52 所 示 。 





10-52 ”最 终 图 片 结果 
神经 网 络 的 第 一 个 隐藏 层 应 该 会 对 一 些 级 别 特别 低 的 特征 进行 建 模 , 因此 可 视 化 权重 可 能 





只 显示 一 些 模糊 的 区 域 ， 也 可 能 只 显示 数字 的 某 几 个 部 分 。 此 外 ， 你 可 能 还 会 看 到 一 些 基本 上 
ERA (这些 噪 点 要 么 不 收敛 ,要么 被 更 高 的 层 忽略 ) 的 神经 元 。 在 迭代 不 同 的 次 数 后 ， 停 止 
训练 并 查看 效果 ， 你 可 能 会 发 现 有 趣 的 结果 。 建 议 读者 分 别 用 10、100 和 1000 步 训练 分 类 器 。 
然后 重新 运行 此 可 视 化 代码 。 我 们 应 该 能 看 到 不 同 级 别 的 收敛 之 间 有 直观 的 差异 。 


10.4 we 
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行 机 器 学 习 变 得 更 加 容易 。 在 理想 情况 下 , 翌 套 可 以 将 语义 上 相似 的 不 同 输入 映射 到 柑 套 空间 
里 的 邻近 处 ， 以 此 来 捕获 输入 的 语义 。 一 个 模型 学 习 到 的 嵌 套 也 可 以 被 其 他 模型 重用 。 





10.4.1 协同 过 滤 

假设 我 们 是 爱 奇 艺 的 开发 小 组 ， 上面 有 一 百 万 部 电影 和 几 十 万 用 户 , 而 且 知道 每 个 用 户 观 
看 过 哪些 电影 。 我 们 的 任务 很 简单 : 基于 观看 记录 向 用 户 推荐 电影 。 比 如 ， 小 李 观 看 了 一 部 电 
影 ， 那 么 相似 的 其 他 电影 也 是 一 部 值得 推荐 的 好 电影 。 在 机 器 学 习 中 ， 这 叫 协同 过 滤 
(Collaborative Filtering) ， 这 是 一 项 可 以 预测 用 户 兴趣 〈 根 据 很 多 其 他 用 户 的 兴趣 ) 的 任务 。 
为 了 解决 电影 推荐 的 问题 ， 我 们 必须 首先 能 够 判断 哪些 电影 是 相似 的 。 那 么 ， 怎 么 设计 电影 的 
相似 性 呢 ? 比如 ， 是 儿童 动画 片 还 是 适合 大 人 的 电影 ， 是 否 是 卖座 电影 ， 是 否 是 偏 艺术 类 的 电 
影 ， 等 等 。 如 图 10-53 所 示 ， 我 们 可 以 将 每 个 电影 “嵌入 ”与 用 户 偏爱 相关 的 维度 的 空间 中 。 
我 们 将 维度 接近 的 电影 放 在 相互 邻近 的 位 置 , 它们 都 是 非常 类 似 的 电影 。 最 后 , 需要 很 多 维度 ， 
比如 20、50 甚至 100 个 维度 来 进行 嵌入 。 
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图 10-53 二 维 排列 


我 们 先 讨论 二 维 ， 可 以 将 二 维 模型 画 出 来 〈 见 图 10-53) ，x 轴 的 左 侧 是 比较 适合 儿童 的 
电影 ， 右 侧 则 是 比较 适合 大 人 的 电影 。y 轴 的 顶部 是 比较 卖座 的 电影 ， 底 部 则 是 偏 艺术 类 (不 
太 卖 座 ) 的 电影 。 再 向 这 个 模型 添加 一 些 电 影 。 这 时 , 会 看 到 位 置 相 邻 的 电影 比较 类 似 ， 而 这 
正 是 我 们 想 要 实现 的 目标 。 每 部 电影 在 这 个 二 维 空间 中 都 只 是 单个 点 , 我 们 使 用 x 轴 上 的 一 个 
值 和 y 轴 上 的 一 个 值 来 表示 这 些 点 。 现 在 可 以 通过 这 些 点 之 间 的 距离 来 了 解 电 影 之 间 的 相似 
性 。 显 然 ， 二 维 不 足以 表达 电影 与 电影 之 间 的 相似 性 ， 在 实际 工作 中 ， 我 们 需要 在 N 维 空间 
中 建 模 。 比 如 ， 选 择 N 个 不 同 的 方面 ， 然 后 可 以 在 N 个 维度 中 移动 某 个 电影 。 使 用 这 种 方法 
将 类 似 电影 放 在 相互 邻近 的 位 置 。 现 在 ， 每 部 电影 都 只 是 N 维 中 的 一 个 点 ， 我 们 能 够 以 N AE 
实 值 的 形式 记 下 每 部 电影 。 

在 上 面 的 例子 中 , 我 们 所 做 的 是 将 这 些 影片 映射 到 一 个 嵌 套 空间 , 其 中 每 部 电影 都 由 一 组 
二 维 坐标 来 表示 。 通 常情 况 下 ， 在 学 习 N EREN, FRAN 个 实 值 数字 表示 ， 其 中 
每 个 数字 都 分 别 表示 在 一 个 维度 中 的 坐标 。 在 上 面 的 示例 中 , 我 们 为 每 个 维度 指定 了 名 称 。 在 
学 习 和 嵌 套 时 ， 每 个 维度 的 学 习 跟 它们 的 名 字 无 关 。 有 时 我 们 可 以 查看 嵌 套 并 为 维度 赋予 语义 ， 








358 


第 10 章 神经 网 络 


但 有 时 则 无 法 做 到 这 一 点 。 通 常 ， 每 个 此 类 维度 都 称 为 一 个 潜在 维度 Clatent dimension) ， 因 
为 它 代 表 的 特征 没有 明确 显示 在 数据 中 ,而 是 要 根据 数据 推断 得 出 。 最 终 ， 真 正 有 意义 的 是 区 
套 空间 中 各 个 影片 之 间 的 距离 ， 而 不 是 单个 影片 在 任意 指定 维度 上 的 坐标 。 


10.4.2 稀 琉 数据 


分 类 数据 (Categorical Data) 是 指 用 于 表示 一 组 有 限 选项 〈 比 如 100 万 部 电影 ) 中 的 一 个 
或 多 个 离散 项 (已 经 观看 过 的 电影 ) 的 输入 特征 。 例如， 可 以 是 某 用 户 观 看 过 的 一 部 影片 、 某 
文档 中 使 用 的 一 系列 单词 或 某 人 从 事 的 职业 。 分 类 数据 的 表示 方式 是 使 用 稀 朴 张 量 (sparse 
tensors， 一 种 含有 极 少 非 零 元 素 的 张 量 ) 。 例 如 ， 要 构建 一 个 影片 推荐 模型 ， 可 以 为 每 部 影片 
分 配 一 个 唯一 ID (ID 79 0. 1. 2. 3. .... 999999) ， 然 后 通过 用 户 已 观看 影片 的 稀疏 张 量 来 
表示 每 个 用 户 〈 看 过 的 电影 那里 打 勾 ) ， 如 图 10-54 所 示 。 


0 1 3 999999 
Sew kl - ERE Co 
Y Viviv 
Y Y Y 
Y Y Y 
8 v| |v Y 


10-54 ”电影 观看 记录 


在 图 10-54 的 矩阵 中 ,用 一 行 表示 一 个 用 户 ,一 列表 示 一 部 电影 ， 打 一 个 勾 表 示 用 户 看 过 
这 部 电影 。 那 么 , 每 一 行 都 是 一 个 显示 用 户 的 影片 观看 记录 的 样本 。 如 果 有 一 百 万 部 电影 ,要 
列 出 一 个 用 户 没有 看 过 的 所 有 电影 可 不 容易 ， 所 以 ， 只 是 记 下 看 过 的 电影 会 更 高 效 。 正 是 因为 
每 个 用 户 只 会 观看 所 有 可 能 的 影片 中 的 极 小 部 分 , 所 以 我 们 以 稀疏 张 量 的 形式 表示 。 根据 影片 
图 标 上 方 所 示 的 索引 ， 最 后 一 行 对 应 于 稀 玻 张 量 [1, 3, 999999]， 表 示 用 户 看 过 的 3 部 电影 的 
索引 。 

那么 ,对 于 机 器 学 习 中 的 输入 数据 ,我 们 如 何 将 电影 表示 为 数字 矢量 呢 ? 最 简单 的 方法 是 : 
定义 一 个 巨型 输入 层 , 并 在 其 中 为 100 万 部 电影 中 的 每 部 电影 设 定 一 个 节点 。 因 为 100 万 部 电 
影 是 独一无二 的 电影 , 所 以 使 用 长 度 为 100 万 的 矢量 来 表示 每 部 电影 , 并 将 每 部 电影 分 配 到 相 
应 矢量 中 对 应 的 索引 位 置 。 如 果 为 “教父 ”电影 分 配 的 索引 是 1234， 那 么 可 以 将 第 1234 个 输 
入 节点 设 成 1， 其 余 节 点 设 成 0。 这 种 表示 法 称 为 独 热 编 码 ， 因 为 只 有 一 个 索引 具有 非 零 值 。 
上 述 方法 得 到 的 输入 矢量 比较 稀疏 ， 即 矢量 很 大 , 但 非 零 值 相对 较 少 。 稀 疏 表示 法 存在 多 项 问 
题 ， 这 些 问 题 可 能 会 致使 模型 很 难 高 效 地 学 习 。 


© 网络 的 规模 


巨型 输入 矢量 意味 着 神经 网 络 的 对 应 权重 数目 会 极其 庞大 。 如 果 有 M 部 电影 ， 而 神经 网 
络 输入 层 上 方 的 第 一 层 内 有 N 个 节点 ， 则 需要 为 该 层 训练 MXN 个 权重 。 权 重 数 目 过 大 会 进 
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一 步 引 发 数据 量 (模型 中 的 权重 越 多 , 高 效 训练 所 需 的 数据 就 越 多 ) 和 计算 量 问题 (权重 越 大 ， 
训练 和 使 用 模型 所 需 的 计算 就 越 多 ， 这 很 容易 超出 硬件 的 能 力 范围 ) 。 


e 矢量 之 间 缺 乏 有 意义 的 联系 


对 于 在 索引 1234 处 设 为 1 以 表示 “教父 ”的 矢量 而 言 ， 与 在 索引 238 处 设 为 1 以 表示 
“红楼 梦 ” 的 矢量 以 及 与 在 索引 50430 处 设 为 1 以 表示 “美国 往事 ”的 矢量 ， 看 不 出 有 什么 
“邻近 ”的 意思 。 

上 述 问题 的 解决 方案 是 使 用 嵌 套 , 也 就 是 将 大 型 稀疏 矢量 映射 到 一 个 保留 语义 关系 的 低 维 
空间 ， 将 语义 上 相似 的 项 归 到 一 起 ， 并 将 相 异 项 分 开 。 


10.4.3 XH E 


AOR, ARRAMA, BT DME “MRSC, DU CE CSE KA 
AYERS ABE TPT IERE BT 5 EAT EC A EA EBURA S o AE AA] DNN 中 一 
样 ， 最 终 层 将 是 要 进行 优化 的 损失 函数 。 例 如 ， 假 设 我 们 正在 执行 协同 过 滤 ， 目 标 是 根据 其 他 
用 户 的 兴趣 预测 某 位 用 户 的 兴趣 。 我 们 可 以 将 这 个 问题 作为 监督 式 学 习 问题 进行 建 模 , 具体 做 
法 是 随机 选取 〈 或 留 出 ) 用 户 观看 过 的 一 小 部 分 影片 作为 正 类 别 标签 ， 再 优化 Softmax 损失 ， 





如 图 10-55 所 示 。 
Softmax 损失 
pm 
E 
am [mw | 

















用 户 影片 (用 作答 入 特征 的 子 集 en a 


10-55 根据 协同 过 渡 数 据 学 习 影 片 嵌 套 的 DNN 架构 示例 


10.4.4 ”代码 实例 


在 本 节 中 ， 我 们 使 用 影评 文本 数据 (来自 ACL 2011 IMDB 数据 集 ) 进行 嵌入 。 这 些 数 
据 已 被 处 理 成 t£Example 格式 。 我 们 将 影评 字符 串 数据 转换 为 稀 政 特征 矢量 ， 使 用 稀疏 特征 
矢量 实现 情感 分 析 线性 模型 。 我 们 通过 将 数据 投射 到 二 维 空间 的 嵌入 来 实现 情感 分 析 DNN 模 
型 。 将 嵌入 可 视 化 ， 以 便 查看 模型 学 到 的 词语 之 间 的 关系 。 

先导 入 依赖 项 ， 并 下 载 训练 数据 和 测试 数据 。tfkeras 中 包含 一 个 文件 下 载 和 缓存 工具 ， 
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我 们 可 以 用 它 来 检索 数据 集 。 


import collections 
import math 


import matplotlib.pyplot as plt 
import numpy as np 

import pandas as pd 

import tensorflow as tf 

from IPython import display 
from sklearn import metrics 


tf.logging.set verbosity(tf.logging.ERROR) 

train url - 
'https://storage.googleapis.com/mledu-datasets/sparse-data-embedding/train.tfr 
ecord' 

train path = tf.keras.utils.get file(train url.split('/')[-1], train url) 

test uri = 
'https://storage.googleapis.com/mledu-datasets/sparse-data-embedding/test.tfre 
cord' 

test path - tf.keras.utils.get file(test url.split('/')[-1], test url) 


结果 如 图 10-56 所 示 。 
Downloading data from https://storage.googleapis.com/mledu-datasets/sparse-data-embedding/train.tfrecord 
41631744/41625533 [== ] - es eus/step 


41639936/41625533 [ - 0s eus/step 


Downloading data from https://storage.googleapis.com/mledu-datasets/sparse-data-embedding/test.tfrecord 
40689664/40688441 [ - 0s Qus/step 
40697856/40688441 [ - 0s Qus/step 


图 10-56 检索 数据 集结 果 
首先 ， 我 们 来 配置 输入 管道 ， 将 数据 导入 TensorFlow 模型 中 。 我 们 使 用 以 下 函数 来 解析 
训练 数据 和 测试 数据 (格式 为 TFRecord) ， 然 后 返回 一 个 由 特征 和 相应 标签 组 成 的 字典 。 


def parse function (record) : 
"""Extracts features and labels. 









Args: 
record: File path to a TFRecord file 
Returns: 
A `tuple` *(labels, features)': 
features: A dict of tensors representing the features 
labels: A tensor with the corresponding labels. 
nnn 
features = { 
"terms": tf.VarLenFeature(dtype-tf.string), # terms are strings of varying 
lengths 
"labels": tf.FixedLenFeature (shape-[1], dtype-tf.float32) # labels are 0 or 1 


parsed features - tf.parse single example(record, features) 
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terms = parsed features['terms'].values 
labels = parsed features['labels'] 


return ('terms':terms], labels 


为 了 确认 函数 是 否 能 正常 运行 ， 我 们 为 训练 数据 构建 一 个 TFRecordDataset， 并 使 用 上 述 
函数 将 数据 映射 到 特征 和 标签 : 


# Create the Dataset object 

ds = tf.data.TFRecordDataset (train path) 

# Map features and labels with the parse function 
ds = ds.map( parse function) 


ds 
结果 如 图 10-57 所 示 。 


<MapDataset shapes: ({terms: (?,)), (1,)), types: ({terms: tf.string), tf.float32)> 
图 10-57 程序 结果 
运行 以 下 单元 ， 以 从 训练 数据 集中 获取 第 一 个 样本 : 


n= ds.make one shot iterator().get next() 
sess = tf.Session() 
sess.run(n) 


结果 如 图 10-58 所 示 。 


({'terms': array(['but', 'it', 'does', 'have', ‘some’, 'good', ‘action’, ‘and’, ‘a’ 

'plot', 'that', 'is', 'somewhat', 'interesting', '.', 'nevsky', 

'acts', 'like', 'a', 'body', 'builder', 'and', 'he', 'isn', "'", 

't', 'all', ‘that’, ‘attractive’, ',', 'in', ‘fact’, ',', ‘imo’, 
3. hey Esty "ugly "5, °C). "his; "acting, "skills", 
'lack', ‘everything’, '!', ')', ‘sascha’, 'is', 'played', 'very', 
'well', 'by', 'joanna', 'pacula', ',', 'but', 'she', 'needed', 
'more', 'lines', 'than', 'she', 'was', 'given', ',', 'her', 
'character', ‘needed’, 'to', 'be', 'developed', '.', 'there', 
'are', 'way', 'too', 'many', 'men', 'in', 'this', 'story', ',', 
'there', 'is', 'zero', ‘romance’, ',', ‘too’, ‘much’, ‘action’ 
',', 'and', 'way', 'too', ‘dumb’, 'of', ‘an’, ‘ending’, '." t' 
'is', 'very', 'violent', '.', 'i', 'did', 'however', 'love', 'the', 
'scenery', ',', 'this', 'movie', 'takes', 'you', 'all', 'over', 
"the", ‘world’, ",', ‘and’, ‘that’, '1s', "a", 'bonus', '.', '1', 
‘also’, ‘liked’, ‘how’, 'it', ‘had’, ‘some’, ‘stuff’, ‘about’, 
'the', 'mafia', ‘in’, 'it', ',', 'not', ‘too’, ‘much’, 'or', ‘too’, 
‘little’, ',', 'but', 'enough', 'that', 'it', 'got', 'my', 
'attention', '.', 'the', 'actors', 'needed', 'to', 'be', 'more', 
‘handsome’, '.', '.', '.', 'the', 'biggest', ‘problem’, 'i', 'had', 
'was', 'that', 'nevsky', 'was', 'just', 'too', 'normal', ',', 
'not', 'sexy', ‘enough’, '.', 'i', ‘think’, 'for', ‘most’, ‘guys’, 
',', 'sascha', 'will', 'be', 'hot', 'enough', ',', 'but', 'for', 
'us', 'ladies', 'that', 'are', 'fans', 'of', 'action', '," 
'nevsky', ‘just’, ‘doesn’, "'", 't', 'cut', 'it', '.', 'overall', 
"s'a 'this', ‘movie’, 'was', ‘fine’, ',', “i', 'didn', ^'*, 't*, 
‘love’, 'it', 'nor', 'did', 'i', ‘hate’, 'it', ',', ‘just’, 
‘found’, ‘it’, ‘to’, 'be', ‘another’, ‘normal’, 'action', 'flick', 
'.'], dtype-object)), array([0.], dtype-float32)) 


10-58 ”第 一 个 样本 
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现在 , 我 们 构建 一 个 正式 的 输入 函数 , 可 以 将 其 传递 给 TensorFlow Estimator 对 象 的 train() 
方法 。 
# Create an input fn that parses the tf.Examples from the given files, 


# and split them into features and targets. 
def input fn(input filenames, num epochs-None, shuffle=True): 





# Same code as above; create a dataset and map features and labels 
ds = tf.data.TFRecordDataset (input filenames) 
ds = ds.map( parse function) 


if shuffle: 
ds = ds.shuffle (10000) 


# Our feature data is variable-length, so we pad and batch 
# each field of the dataset structure to whatever size is necessary 
ds = ds.padded batch(25, ds.output shapes) 


ds = ds.repeat (num epochs) 


# Return the next batch of data 
features, labels - ds.make one shot iterator().get next() 
return features, labels 


下 面 根据 这 些 数 据 训练 一 个 情感 分 析 模 型 ， 以 预测 某 条 评价 总 体 上 是 好 评 (标签 为 D 还 
是 差 评 (标签 为 0) 。 为 此 ， 我 们 会 使 用 词汇 表 ， 词 汇 表 中 的 每 个 术语 都 与 特征 矢量 中 的 一 个 
坐标 相对 应 。 为 了 将 样本 的 字符 串 值 terms 转换 为 这 种 矢量 格式 ， 我 们 按 以 下 方式 处 理 字 符 
PE: 若 该 术语 没有 出 现在 样本 字符 串 中 ， 则 坐标 值 将 为 0; 若 出 现在 样本 字符 串 中 ， 则 坐标 
值 为 1。 未 出 现在 该 词汇 表 中 的 样本 中 的 术语 将 被 弃 用 。 


1. 线性 模型 


对 于 第 一 个 模型 ， 我 们 将 使 用 54 个 信息 性 术语 来 构建 LinearClassifier 模型 。 这 是 一 个 
使 用 具有 稀疏 输入 和 显 式 词汇 表 的 线性 模型 。 以 下 代码 将 为 我 们 的 术语 构建 特征 列 。 
categorical column with vocabulary list 函数 可 使 用 “字符 串 -特征 矢量 ”映射 来 创建 特征 列 。 


# 54 informative terms that compose our model vocabulary 

informative terms = ("bad", "great", "best", "worst", "fun", "beautiful", 
"excellent", "poor", "boring", "awful", "terrible", 
"definitely", "perfect", "liked", "worse", "waste", 
"entertaining", "loved", "unfortunately", "amazing", 
"enjoyed", "favorite", "horrible", "brilliant", "highly", 
"simple", "annoying", "today", "hilarious", "enjoyable", 
"dull", "fantastic", "poorly", "fails", "disappointing", 
"disappointment", "not", "him", "her", "good", "time", 
CON on i movie "tiim actione" comedy 
"drama", "family", "man", "woman", "boy", "girl") 








terms feature column = 
tf.feature column.categorical column with vocabulary list (key="terms", 
vocabulary list-informative terms) 
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接 下 来 ， 将 构建 LinearClassifier， 在 训练 集中 训练 该 模型 ， 并 在 评估 集中 对 其 进行 评估 。 


my optimizer = tf.train.AdagradOptimizer(learning rate-0.1) 
my optimizer - tf.contrib.estimator.clip gradients by norm(my optimizer, 5.0) 


feature columns - [ terms feature column ] 


classifier = tf.estimator.LinearClassifier( 
feature columns-feature columns, 
optimizer-my optimizer, 


) 


classifier.train( 
input fn-lambda: input fn([train path]), 
steps=1000) 


evaluation metrics = classifier.evaluate( 
input fn=lambda: input fn([train path]), 
steps=1000) 

print "Training set metrics:" 

for m in evaluation metrics: 
print m, evaluation metrics[m] 

prrntow m 


evaluation metrics - classifier.evaluate( 
input fn-lambda: input fn([test path]), 
steps=1000) 


print "Test set metrics:" 

for m in evaluation metrics: 
print m, evaluation metrics[m] 

print "=-= 


结果 如 图 10-59 所 示 。 





























Training set metrics: 
loss 11.239931 
accuracy baseline 0.5 

global step 1000 

recall 0.8228 

auc 0.8730114 

prediction/mean 0.49008918 
precision 0.7721471 

label/mean 0.5 

average loss 0.44959724 

auc precision recall 0.86528635 
accuracy 0.79 





Test set metrics: 

loss 11.246915 

accuracy, baseline 0.5 
global step 1000 

recall 0.81688 

auc 0.8713611 
prediction/mean 0.48949802 
precision 0.7691902 
label/mean 0.5 

average loss 0.4498766 
auc precision recall 0.8629097 
accuracy 0.78588 





图 10-59 在 训练 集中 训练 该 模型 并 做 评估 
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2. 深度 神经 网 络 ( DNN ) 模型 


上 述 模型 是 一 个 线性 模型 ， 效 果 不 错 。 我 们 可 以 使 用 DNN 模型 实现 更 好 的 效果 吗 ? 将 
LinearClassifier 切换 为 DNNClassifier， 检 验 一 下 DNN 模型 的 效果 。 


JHHHOHHHHHHHHHHHHHHHHHE Here's what we changed HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 
classifier - tf.estimator.DNNClassifier( + 
feature columns-[tf.feature column.indicator column (terms feature column) ], 

+ 
hidden units=[20,20], + 
optimizer=my optimizer, + 
) + 
AHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 
+ 


ERY 
classifier.train ( 
input fn=lambda: input fn([train path]), 
steps=1000) 


evaluation metrics = classifier.evaluate( 
input fn=lambda: input fn([train path]), 
steps=1) 

print "Training set metrics:" 

for m in evaluation metrics: 
print m, evaluation metrics[m] 

print "---" 


evaluation metrics = classifier.evaluate( 
input fn=lambda: input fn([test path]), 
steps=1) 





print "Test set metrics:" 
for m in evaluation metrics: 
print m, evaluation metrics[m] 
print "---" 
except ValueError as err: 
print err 


结果 如 下 : 


Training set metrics: 
loss 11.250758 

accuracy baseline 0.64 
global step 1000 

recall 0.7777778 

auc 0.8749999 
prediction/mean 0.4213693 
precision 0.7 

label/mean 0.36 

average loss 0.45003033 
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auc precision recall 0.8206042 
accuracy 0.8 


Test set metrics: 

loss 9.692427 

accuracy baseline 0.52 
global step 1000 

recall 0.7692308 

auc 0.8974359 
prediction/mean 0.4718185 
precision 0.90909094 
label/mean 0.52 

average loss 0.38769707 
auc precision recall 0.9224901 
accuracy 0.84 


3. TE DNN pe RE 


下 面 我 们 使 用 嵌 套 列 来 实现 DNN 模型 。 嵌 套 列 会 将 稀疏 数据 作为 输入 ， 并 返回 一 个 低 维 
度 密集 矢量 作为 输出 。 从 计算 方面 而 言 ，embedding_column 通常 用 于 在 稀疏 数据 中 训练 模型 
最 有 效 的 选项 。 在 下 面 的 代码 中 ,我 们 将 数据 投射 到 二 维 空间 的 embedding_column 来 为 模型 
定义 特征 列 ， 并 定义 符合 以 下 规范 的 DNNClassifier。 


© 具有 两 个 隐藏 层 ， 每 个 包含 20 个 单元 。 

e 采用 学 习 速 率 为 0.1 的 AdaGrad 优化 方法 。 

€ gradient clip norm 值 为 5.0. 

注意 : 在 实际 工作 中 ， 我 们 可 能 会 将 数据 投射 到 2 AED ein 50 100 的 空间 中 。 
但 就 目前 而 言 ，2 维 是 比较 容易 可 视 化 的 维 数 。 


BHHHHHHHHHHHEEHHHEEHHHE NEW CODE HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH 
terms embedding column = 

tf.feature column.embedding column(terms feature column, dimension-2) 
feature columns = [ terms embedding column 


H 





my optimizer = tf.train.AdagradOptimizer(learning rate-0.1) 
my optimizer = tf.contrib.estimator.clip gradients by norm(my optimizer, 5.0) 


classifier = tf.estimator.DNNClassifier( 
feature columns-feature columns, 
hidden units-[20,20], 
optimizer-my optimizer 
) 
HTH EERE EEE EEE EEA AEEEEE EEE EE EEE BEES AE ETE EEE EEE EEA AE ATE 


classifier.train( 


input fn=lambda: input fn([train path]), 
steps=1000) 
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evaluation metrics - classifier.evaluate( 
input fn-lambda: input fn([train path]), 
steps=1000) 

print "Training set metrics:" 

for m in evaluation metrics: 
print m, evaluation metrics[m] 

print "———" 


evaluation metrics - classifier.evaluate( 
input fn-lambda: input fn([test path]), 
steps-1000) 


print "Test set metrics:" 

for m in evaluation metrics: 
print m, evaluation metrics [m] 

Print "=-=" 


结果 如 下 : 


Training set metrics: 

loss 11.2814 

accuracy baseline 0.5 
global step 1000 

recall 0.81336 

auc 0.86951864 
prediction/mean 0.49193195 
precision 0.7733323 
label/mean 0.5 

average loss 0.45125598 
auc precision recall 0.8576003 
accuracy 0.78748 

Test set metrics: 

loss 11.315074 

accuracy baseline 0.5 
global step 1000 

recall 0.8048 

auc 0.8684447 
prediction/mean 0.49131528 
precision 0.7731919 
label/mean 0.5 

average loss 0.45260298 
auc precision recall 0.85577524 
accuracy 0.78436 


上 述 模型 使 用 了 embedding column， 而 且 似乎 很 有 效 ， 但 我 们 并 不 了 解 内 部 发 生 的 情形 。 
如 何 检查 该 模型 确实 在 内 部 使 用 了 嵌 套 呢 ? 首先 ， 我 们 来 看 看 该 模型 中 的 张 量 : 


classifier.get variable names() 
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结果 如 图 10-60 所 示 。 


['dnn/hiddenlayer_@/bias', 
‘dnn/hiddenlayer_@/bias/t_@/Adagrad', 
'dnn/hiddenlayer_@/kernel', 
'dnn/hiddenlayer 0/kernel/t e/Adagrad', 
'dnn/hiddenlayer 1/bias', 
'dnn/hiddenlayer 1/bias/t 0/Adagrad', 
'dnn/hiddenlayer 1/kernel', 
'dnn/hiddenlayer 1/kernel/t G/Adagrad', 
'dnn/input from feature columns/input layer/terms embedding/embedding weights', 
'dnn/input from feature columns/input layer/terms embedding/embedding weights/t 8/Adagrad', 
'dnn/logits/bias', 
'dnn/logits/bias/t 0/Adagrad', 
'dnn/logits/kernel', 
'dnn/logits/kernel/t e/Adagrad', 
'global step'] 











10-60 ”该 模型 中 的 张 量 


从 上 面 的 结果 中 , 我 们 可 以 看 到 这 里 有 一 个 嵌 套 层 : dnn/input_from_feature_columns/input_ 
layer/terms embedding... WEEER, 34—^ 54 维 矢量 投射 到 2 维 空间 : 


classifier.get variable value('dnn/input from feature columns/input layer/term 
s embedding/embedding weights').shape 


结果 为 : 


(50, 2) 


现在 , 我 们 来 看 看 实际 榜 套 空间 。 我们 仅 使 用 10 步 来 重新 训练 该 模型 CRE AE — 
糕 的 模型 》。 运 行 下 面 的 嵌入 可 视 化 代码 。 


import numpy as np 
import matplotlib.pyplot as plt 


embedding matrix = 
classifier.get variable value('dnn/input from feature columns/input layer/term 
s embedding/embedding weights') 


for term index in range(len(informative terms)): 
# Create a one-hot encoding for our term. It has 0s everywhere, except for 
# a single 1 in the coordinate that corresponds to that term. 
term vector = np.zeros(len(informative terms) ) 
term vector[term index] = 1 
# We'll now project that one-hot vector into the embedding space. 
embedding xy = np.matmul(term vector, embedding matrix) 
plt.text (embedding xy[0], 
embedding xy[1], 
informative terms[term index]) 


# Do a little setup to make sure the plot displays nicely. 
plt.rcParams["figure.figsize"] = (15, 15) 

plt.xlim(1.2 * embedding matrix.min(), 1.2 * embedding matrix.max()) 
plt.ylim(1.2 * embedding matrix.min(), 1.2 * embedding matrix.max()) 
plt.show() 
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结果 如 图 10-61 所 示 。 





2 E! 0 1 2 
图 10-61 重新 训练 该 模型 的 结果 


下 面 看 看 能 否 优化 该 模型 以 改进 其 效果 。 我 们 可 以 更 改 超 参 数 或 使 用 其 他 优化 工具 ,比如 
Adam， 也 可 以 向 informative terms 中 添加 其 他 术语 。 此 数据 集 有 一 个 完整 的 词汇 表 文 件 ， 其 
PG 30716 个 术语 ， 该 文件 为 https://storage.googleapis.com/mledu-datasets/sparse-data- 
embedding/terms.txt， 如 图 10-62 所 示 。 我 们 可 以 从 该 词汇 表 文 件 中 挑选 出 其 他 术语 ， 也 可 以 
通过 categorical column with vocabulary file 特征 列 使 用 整个 词汇 表 文 件 。 


!wget 
https://storage.googleapis.com/mledu-datasets/sparse-data-embedding/terms.txt 
-0 /tmp/terms.txt 




















n 





--2018-06-11 07:22:16-- https://storage.googleapis.com/mledu-datasets/sparse-data-embedding/terms.txt 
Resolving storage.googleapis.com (storage.googleapis.com)... 74.125.141.128, 2607:f8b0:400c:c06::80 
Connecting to storage.googleapis.com (storage.googleapis.com)|74.125.141.128|:443... connected. 

HTTP request sent, awaiting response... 200 OK 

Length: 253538 (248K) [text/plain] 

Saving to: ‘/tmp/terms.txt? 


/tmp/terms txt ] 247.60K --.-KB/s in @.@1s 


2018-06-11 07:22:16 (21.8 MB/s) - '/tmp/terms.txt? saved [253538/253538] 


图 10-62 一 个 完整 的 词汇 表 文件 





训练 代码 如 下 : 


# Create a feature column from "terms", using a full vocabulary file. 
informative terms = None 
with open("/tmp/terms.txt", 'r') as f: 

# Convert it to a set first to remove duplicates. 

informative terms - list(set(f.read().split())) 


terms feature column = 
tf.feature column.categorical column with vocabulary list (key-"terms", 


vocabulary list-informative terms) 


369 








terms embedding column = 
tf.feature column.embedding column(terms feature column, dimension-2) 
feature columns = [ terms embedding column ] 


my optimizer = tf.train.AdagradOptimizer(learning rate-0.1) 
my optimizer - tf.contrib.estimator.clip gradients by norm(my optimizer, 5.0) 


classifier - tf.estimator.DNNClassifier( 
feature columns-feature columns, 
hidden units-[10,10], 
optimizer-my optimizer 


) 


classifier.train( 
input fn-lambda: input fn([train path]), 
steps-1000) 


evaluation metrics - classifier.evaluate( 
input fn-lambda: input fn([train path]), 
steps-1000) 

print "Training set metrics:" 

for m in evaluation metrics: 
print m, evaluation metrics [m] 

print "---" 


evaluation metrics - classifier.evaluate( 
input fn-lambda: input fn([test path]), 
steps=1000) 


print "Test set metrics:" 

for m in evaluation metrics: 
print m, evaluation metrics[m] 

print "---" 


结果 如 图 10-63 所 示 。 


Training set metrics: 
loss 10.38858 

accuracy baseline 0.5 
global step 1600 

recall 0.79728 

auc 0.8924117 
prediction/mean 6.4879882 
precision 6.82705396 
label/mean 0.5 

average loss 0.41554722 
auc precision recall 0.8909711 
accuracy 0.81528 

Test set metrics: 

loss 10.95036 

accuracy baseline 0.5 
global step 1000 

recall 0.7792 

auc 0.8804679 
prediction/mean 0.4844923 
precision 0.81417704 
label/mean 0.5 

average loss 0.43801442 
auc precision recall 0.87708545 
accuracy 0.80068 








10-63 ”模型 训练 的 最 终结 果 
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从 上 面 的 几 个 例子 中 ,我 们 获得 了 比 原来 的 线性 模型 更 好 且 具 有 内 套 的 DNN 模型 ， 但 线 
性 模型 也 相当 不 错 ， 而 且 训练 速度 快 得 多 。 线 性 模型 的 训练 速度 之 所 以 更 快 ， 是 因为 没有 太 多 
要 更 新 的 参数 或 要 反 向 传播 的 层 。 在 有 些 应 用 中 , 线性 模型 的 速度 可 能 非常 关键 , 或 者 从 质量 
的 角度 来 看 ， 线 性 模型 可 能 完全 够 用 。 在 其 他 领域 ， DNN 提供 的 额外 模型 的 复杂 性 和 能 力 可 
能 更 重要 。 另 外 , 在 训练 LinearClassifier 或 DNNClassifier 时 ， 需 要 根据 实际 情况 使 用 稀 疏 列 。 
TF 提供 了 两 个 选项 : embedding column 或 indicator column。 在 训练 LinearClassifier 时 ， 系 
统 在 后 台 使 用 了 embedding column 。 在 训练 DNNClassifier 时 ， 我 们 必须 明确 地 选择 


embedding column 或 indicator column. 
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知识 图 谱 


构建 知识 图 谱 (Knowledge Graph/Vault) 的 主要 目的 是 获取 大 量 的 、 让 计算 机 可 读 的 知识 。 
在 互联 网 飞速 发 展 的 今天 , 知识 大 量 存在 于 非 结构 化 的 文本 数据 、 大 量 半 结 构 化 的 表格 和 网 页 
以 及 生产 系统 的 结构 化 数据 中 。 知识 图 谱 的 工作 的 本 质 上 是 对 知识 体系 的 工程 化 建设 , 谷歌 的 
野心 是 打造 全 人 类 知识 的 全 景 图 ， 那 么 各 行业 、 各 企业 的 知识 图 谱 就 是 各 自 领 域 的 知识 工程 。 
虽然 解决 的 终极 问题 都 是 降 本 增 效 , 知识 图 谱 和 其 他 信息 技术 的 不 同 在 于 , 它 是 从 知识 结构 化 
的 角度 提升 现 有 业务 的 效率 和 用 户 的 体验 ， 在 不 同业 务 场景 下 提供 分 析 洞 察 和 自动 化 的 服务 。 
一 般 来 说 ， 就 是 通过 对 信息 的 结构 化 、 语 义 化 、 立 体 化 处 理 ， 找 到 正确 的 信息 ， 发 现 隐 含 的 知 
识 ， 形 成 优化 的 决策 ， 提 供 结构 化 知识 框架 和 方法 辅助 自动 化 地 解决 信息 过 载 和 不 全 的 问题 。 
如 图 11-1 所 示 为 一 个 知识 图 谱 实例 。 








图 11-1 知识 图 谱 实 例 


什么 是 知识 图 谱 


构建 知识 图 谱 主要 分 为 三 部 分 ， 第 一 部 分 是 知识 获取 ,主要 是 如 何 从 非 结构 化 、 半 结构 化 
以 及 结构 化 数据 中 获取 知识 ; 第 二 部 分 是 数据 融合 , 主要 是 如 何 将 从 不 同 数据 源 获 取 的 知识 进 
行 融 合 , 构建 数据 之 间 的 关联 ; 第 三 部 分 是 知识 计算 及 应 用 , 这 一 部 分 关注 的 是 基于 知识 图 谱 




















的 计算 功能 以 及 基于 知识 图 谱 的 应 用 。 我 们 首先 来 看 一 下 知识 图 谱 的 定义 ， 再 看 其 架构 。 


11.1.1 知识 图 谱 的 定义 


在 维基 百科 的 官方 词 条 中 ， 知 识 图 谱 是 谷歌 用 于 增强 其 搜索 引擎 功能 的 知识 库 。 本 质 上 ， 
知识 图 谱 旨 在 描述 真实 世界 中 存在 的 各 种 实体 或 概念 及 其 关系 ， 其 构成 一 张 巨大 的 语义 网 络 
图 , 节点 表示 实体 或 概念 , 边 则 由 属性 或 关系 构成 。 现 在 的 知识 图 谱 已 被 用 来 泛 指 各 种 大 规模 
的 知识 库 。 知 识 图 谱 中 包含 以 下 几 类 节点 和 边 。 


@ KK: 指 的 是 具有 可 区 别 性 且 独立 存在 的 某 种 事物 ， 如 某 一 个 人 、 某 一 个 城市 、 某 一 
种 植物 、 某 一 种 商品 等 。 世 界 万 物 由 具体 的 事物 组 成 ， 就 是 实体 ， 如 图 11-1 中 的 “中 
国 ”“ 美 国 ”“ 日 本 ”等 。 实 体 是 知识 图 谱 中 最 基本 的 元 素 ， 不 同 的 实体 间 存 在 不 同 
的 关系 。 

@ 语义 类 (概念 ) : 具有 同 种 特性 的 实体 构成 的 集合 ， 如 国家 、 民 族 、 书 籍 、 电 脑 等 。 
概念 主要 指 集合 、 类 别 、 对 象 类 型 、 事 物 的 种 类 ， 例 如 人 物 、 地 理 等 。 

© ABS: 通常 作为 实体 和 语义 类 的 名 字 、 描 述 、 解 释 等 ， 可 以 由 文本 、 图 像 、 音 视频 等 
来 表达 。 

€ 属性 CB): 从 一 个 实体 指向 它 的 属性 值 。 不 同 的 属性 类 型 对 应 不 同类 型 属性 的 边 。 
属性 值 主要 指 对 象 指定 属性 的 值 。 如 图 11-1 所 示 的 “面积 ” “人 口 ”“ 首 都 ”是 几 
种 不 同 的 属性 。 属 性 值 主要 指 对 象 指定 属性 的 值 ， 例 如 960 万 平方 公里 等 。 

@ KA: 形式 化 为 一 个 函数 ， 它 把 几 个 点 映射 到 一 个 布尔 值 。 在 知识 图 谱 上 ， 关系 则 是 
一 个 把 几 个 图 节点 ( 实体、 语义 类 、 属 性 值 ) 映射 到 布尔 值 的 函数 。 


基于 三 元 组 是 知识 图 谱 的 一 种 通用 表示 方式 。 三 元 组 的 基本 形式 主要 包括 (实体 1- 关 系 - 
实体 2) 和 实体 -属性 -属性 值 ) 等 。 如 图 11-1 的 知识 图 谱 例 子 所 示 ， 中 国 是 一 个 实体 ， 北 京 
是 一 个 实体 , “中 国 -首都 -北京 ”是 一 个 《实体 -关系 -实体 ) 的 三 元 组 样 例 ;北京 是 一 个 实体 ， 
人 口 是 一 种 属性 ，2069.3 万 是 属性 值 。“ 北 京 -人 口 -2069.3 万 ”构成 一 个 (实体 -属性 -属性 值 ) 
的 三 元 组 样 例 。 知 识 图 谱 是 知识 库 中 的 实体 集合 ， 共 包含 |E| 种 不 同 实体 ， 知 识 图 谱 也 是 知识 
库 中 的 关系 集合 ， 共 包含 |R| 种 不 同 关系 。 每 个 实体 (概念 的 外 延 )》 可 用 一 个 全 局 唯一 确定 的 
ID 来 标识 ,每 个 属性 -属性 值 对 (Attribute-Value Pair, AVP) 可 用 来 刻画 实体 的 内 在 特性 ， 而 
关系 可 用 来 连接 两 个 实体 ， 刻 画 它们 之 间 的 关联 。 

















11.1.2 ”知识 图 谱 的 架构 

知识 图 谱 的 架构 包括 自身 的 逻辑 结构 以 及 构建 知识 图 谱 所 采用 的 技术 (体系 ) 架构 。 

1. 知识 图 谱 的 逻辑 结构 

知识 图 谱 在 逻辑 上 可 分 为 模式 层 与 数据 层 两 个 层次 ， 数 据 层 主要 是 由 一 系列 的 事实 组 成 
的 ， 而 知识 将 以 事实 为 单位 进行 存储 。 如 果 用 〈 实 体 1- 关 系 -实体 2) 、 (实体 -属性 -属性 值 ) 
这 样 的 三 元 组 来 表达 事实 ， 可 选择 图 数据 库 作为 存储 介质 ， 例 如 开源 的 Neo4j 等 。 模式 层 构建 
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ERREZE, 是 知识 图 谱 的 核心 , 通常 采用 本 体 库 来 管理 知识 图 谱 的 模式 层 。 本 体 是 结构 化 
知识 库 的 概念 模板 ， 通 过 本 体 库 而 形成 的 知识 库 不 仅 层次 结构 较 强 ， 并 且 宛 余 程 度 较 小 。 

2. 知识 图 谱 的 体系 架构 

知识 图 谱 的 体系 架构 是 指 构建 模式 结构 ， 如 图 11-2 所 示 。 其 中 ， 虚 线 框 内 的 部 分 为 知识 
图 谱 的 构建 过 程 , 也 包含 知识 图 谱 的 更 新 过 程 。 知识 图 谱 的 构建 从 最 原始 的 数据 (包括 结构 化 、 
半 结 构 化 、 非 结构 化 数据 ) 出 发 ， 采 用 一 系列 自动 或 者 半自动 的 技术 手段 ， 从 原始 数据 库 和 第 
三 方 数 据 库 中 提取 知识 事实 ， 并 将 其 存 入 知识 库 的 数据 层 和 模式 层 ， 这 一 过 程 包含 信息 抽取 、 
知识 表示 、 知 识 融合 、 知 识 推理 4 个 过 程 ， 每 一 次 更 新 迭代 均 包 含 这 4 个 阶段 。 知识 图 谱 主 要 
有 自 项 向 下 (top-down) 与 自 底 向 上 (bottom-up) 两 种 构建 方式 。 自 顶 向 下 指 的 是 先 为 知识 图 
谱 定 义 好 本 体 与 数据 模式 , 再 将 实体 加 入 知识 库 。 该 构建 方式 需要 利用 一 些 现 有 的 结构 化 知识 
库 作为 其 基础 知识 库 ， 例 如 Freebase 项 目 就 是 采用 这 种 方式 ， 它 的 绝 大 部 分 数据 是 从 维基 百 
科 中 得 到 的 。 自 底 向 上 指 的 是 从 一 些 开放 链接 数据 中 提取 出 实体 , 选择 其 中 置信 度 较 高 的 加 入 
知识 库 ， 再 构建 顶层 的 本 体 模式 。 目 前 ， 大 多 数 知识 图 谱 都 采用 自 底 向 上 的 方式 进行 构建 ， 其 
中 最 典型 就 是 谷歌 Google 的 Knowledge Vault 和 微软 的 Satori 知识 库 。 现 在 也 符合 互联 网 数据 
内 容 知 识 产生 的 特点 。 
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图 11-2 ”知识 图 谱 的 技术 架构 
根据 覆盖 范围 ,知识 图 谱 也 可 分 为 开放 通用 知识 图 谱 和 垂直 行业 知识 图 谱 。 开放 通用 知识 图 
谱 注重 广度 ， 强 调 融合 更 多 的 实体 ， 较 垂直 行业 知识 图 谱 而 言 ， 其 准确 度 不 够 高 ， 并 且 受 概念 范 
围 的 影响 ， 很 难 借助 本 体 库 对 公理 、 规 则 以 及 约束 条 件 的 支持 能 力 规范 其 实体 、 属 性 、 实 体 间 的 
关系 等 。 通 用 知识 图 谱 主要 应 用 于 智能 搜索 等 领域 。 行 业 知 识 图 谱 通常 需要 依靠 特定 行业 的 数据 
来 构建 ， 具 有 特定 的 行业 意义 。 行 业 知识 图 谱 中 ， 实 体 的 属性 与 数据 模式 往往 比较 丰富 ， 需 要 考 
虑 到 不 同 的 业务 场景 与 使 用 人 员 。 下 一 小 节 介绍 现在 知名 度 较 高 的 大 规模 知识 库 。 




















11.1.3 ”开放 知识 图 谱 


当前 世界 范围 内 知名 的 高 质量 大 规模 开放 知识 图 谱 包括 DBpedia, Yago, Wikidata, 
BabelNet、ConceptNet 以 及 Microsoft Concept Graph 等 。 
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DBpedia 是 一 个 大 规模 的 多 语言 百科 知识 图 谱 , 可 视 为 是 维基 百科 的 结构 化 版 本 .DBpedia 
使 用 固定 的 模式 对 维基 百科 中 的 实体 信息 进行 抽取 ,包括 abstract. infobox. category 和 page 
link 等 信息 。DBpedia 目前 拥有 127 种 语言 的 超过 2800 万 个 实体 与 数 亿 个 RDF 三 元 组 ， 并 
且 作为 链接 数据 的 核心 ， 与 许多 其 他 数据 集 均 存在 实体 映射 关系 。 而 根据 抽样 评测 ，DBpedia 
中 RDF 三 元 组 的 正确 率 达 88%. DBpedia 支持 数据 集 的 完全 下 载 。 

Yago 是 一 个 整合 了 维基 百科 与 WordNet 的 大 规模 本 体 ， 首 先 制定 一 些 固定 的 规则 对 维基 
百科 中 每 个 实体 的 infobox 进行 抽取 ， 然 后 利用 维基 百科 的 category 进行 实体 类 别 推断 (Type 
Inference) , 获得 大 量 的 实体 与 概念 之 间 的 IsA 关系 (如 :“Elvis Presley” IsA “American Rock 
Singers”) ， 最 后 将 维基 百科 的 category 与 WordNet 中 的 Synset (一 个 Synset 表示 一 个 概念 ) 
进行 映射 ， 从 而 利用 WordNet 严格 定义 的 Taxonomy 完成 大 规模 本 体 的 构建 。 随 着 时 间 的 推 
移 ，Yago 的 开发 人 员 为 该 本 体 中 的 RDF 三 元 组 增加 了 时 间 与 空间 信息 ， 从 而 完成 了 Yago2 
的 构建 ， 又 利用 相同 的 方法 对 不 同 语言 的 维基 百科 进行 抽取 ， 完 成 了 Yago3 的 构建 。 目 前 ， 
Yago 拥有 10 种 语言 ， 约 459 万 个 实体 ，2400 万 个 Facts，Yago 中 Facts 的 正确 率 约 为 95%。 
Yago 支持 数据 集 的 完全 下 载 。 

Wikidata 是 一 个 可 以 自由 协作 编辑 的 多 语言 百科 知识 库 ， 由 维基 媒体 基金 会 发 起 , 期 望 将 
维基 百科 、 维 基文 库 、 维 基 导 游 等 项 目 中 的 结构 化 知识 进行 抽取 、 存 储 、 关 联 。Wikidata 中 的 
每 个 实体 存在 多 个 不 同 语言 的 标签 、 别 名 、 描 述 以 及 声明 (statement) ， 比 如 Wikidata 会 给 出 
实体 London 的 中 文 标签 “伦敦 ”、 中 文 描述 “英国 首都 ”以 及 一 个 关于 London 的 声明 的 有 具 
{PIF -London 的 一 个 声明 由 一 个 claim 与 一 个 reference 组 成 , claim 包括 property: Population, 
Value: 8173900 以 及 一 些 qualifiers (备注 说 明 ) ， 而 reference 则 表示 一 个 claim 的 出 处 ， 可 
以 为 空 值 。Wikidata 目前 支持 超过 350 种 语言 ， 拥 有 近 2500 万 个 实体 及 超过 7000 万 的 声明 ， 
并 且 目 前 Freebase 正在 往 Wikidata 上 迁移 ， 以 进一步 支持 谷歌 的 语义 搜索 。Wikidata 支持 数 
据 集 的 完全 下 载 。 

BabelNet 是 目前 世界 范围 内 最 大 的 多 语言 百科 同义词 典 ， 它 本 身 可 以 视 为 一 个 由 概念 、 
实体 、 关 系 构 成 的 语义 网 络 (Semantic Network) 。BabelNet 目前 有 超过 1400 万 个 词 目 ， 每 
个 词 目 对 应 一 个 synset。 每 个 synset 包含 所 有 表达 相同 含义 的 不 同 语言 的 同义词 。 比 如 ,“ 中 
国 ”“ 中 华人 民 共 和 国 ”“China” 以 及 “people’s republic of China” 均 存在 于 一 个 synset 中 。 
BabelNet 由 WordNet 中 的 英文 synsets 与 维基 百科 页 面 进行 映射 再 利用 维基 百科 中 的 跨 语言 
页 面 链接 以 及 翻译 系统 得 到 BabelNet 的 初始 版 本 。 目 前 ，BabelNet 又 整合 了 Wikidata、 
GeoNames、OmegaWiki 等 多 种 资源 ， 共 拥有 271 个 语言 版 本 。BabelNet 中 的 错误 来 源 主要 
在 于 维基 百科 与 WordNet 之 间 的 映射 , 而 映射 目前 的 正确 率 大 约 在 91%。 关于 数据 集 的 使 用 ， 
BabelNet 目前 支持 HTTP API 调用 ,而 数据 集 的 完全 下 载 需要 经 过 非 商 用 的 认证 后 才能 完成 。 

ConceptNet 是 一 个 大 规模 的 多 语言 常识 知识 库 ， 其 本 质 为 一 个 以 自然 语言 的 方式 描述 人 
类 常识 的 大 型 语义 网 络 。ConceptNet 起 源 于 一 个 众 包 项 目 Open Mind Common Sense, H 1999 
年 开始 , 通过 文本 抽取 、 众 包 、 融合 现 有 知识 库 中 的 常识 知识 以 及 设计 一 些 游戏 从 而 不 断 获取 
常识 知识 。ConceptNet 中 共 拥 有 36 种 固定 的 关系 ， 如 IsA、UsedFor、CapableOf 等 。 
ConceptNet 目前 拥有 304 个 语言 的 版 本 , 共有 超过 390 万 个 概念 ，2800 万 个 声明 (statements, 
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语义 网 络 中 边 的 数量 ) ， 正 确 率 约 为 81%。 另 外 ，ConceptNet 目前 支持 数据 集 的 完全 下 载 。 

Microsoft Concept Graph 是 一 个 大 规模 的 英文 Taxonomy， 其 中 主要 包含 的 是 概念 间 以 及 
实例 等 同 于 实体 ) 概 念 间 的 IsA 关系 ， 其 中 并 不 区 分 instanceOf 与 subclassOf 的 关系 。 
Microsoft Concept Graph 的 前 身 是 Probase, 它 过 自动 化 地 抽取 自 数 十 亿 网 页 与 搜索 引擎 查询 记 
录 ， 其 中 每 一 个 IsA 关系 均 附带 一 个 概率 值 ， 即 该 知识 库 中 的 每 个 IsA 关系 不 是 绝对 的 , 而 是 
存在 一 个 成 立 的 概率 值 以 支持 各 种 应 用 ， 如 短文 本 理解 、 基 于 Taxonomy 的 关键 词 搜索 和 万 维 
网 表格 理解 等 。 目前, Microsoft Concept Graph 拥有 约 530 万 个 概念 、1250 万 个 实例 以 及 8500 
万 个 ISA 关系 〈 正 确 率 约 为 92.8%) 。 关 于 数据 集 的 使 用 ，Microsoft Concept Graph 目前 支持 
HTTP API 调用 ， 而 数据 集 的 完全 下 载 需 要 经 过 非 商 用 的 认证 后 才能 完成 。 

除了 上 述 知识 图 谱 外 ， 中 文 目前 可 用 的 大 规模 开放 知识 图 谱 有 Zhishime、Zhishi.schema 
与 XLore 等 。Zhishime 是 第 一 份 构建 中 文 链接 数据 的 工作 ,与 DBpedia 类 似 ，Zhishime 首 
先 指 定 固定 的 抽取 规则 ， 对 百度 百科 、 互 动 百科 和 中 文 维基 百科 中 的 实体 信息 进行 抽取 , 包括 
abstract, infobox, category 等 信息 ; 然后 对 源 自 不 同 百科 的 实体 进行 对 齐 ， 从 而 完成 数据 集 
的 链接 。 目 前 , Zhishi.me 中 拥有 约 1000 万 个 实体 与 12000 万 个 RDF 三 元 组 ， 所 有 数据 可 以 
通过 在 线 SPARQL Endpoint 查询 得 到 。Zhishi.schema 是 一 个 大 规模 的 中 文 模式 (Schema) 
知识 库 , 其 本 质 是 一 个 语义 网 络 , 其 中 包含 三 种 概念 间 的 关系 ， HU equal. related 与 subClassOf 
K Ao Zhishi.schema 抽取 自 社 交 站 点 的 分 类 目录 (Category Taxonomy) 及 标签 云 (Tag Cloud) , 
目前 拥有 约 40 万 个 中 文 概念 与 150 万 RDF 三 元 组 ， 正 确 率 约 为 84%， 并 支持 数据 集 的 完全 
下 载 。XLore 是 一 个 大 型 的 中 英文 知识 图 谱 ， 它 旨 在 从 各 种 不 同 的 中 英文 在 线 百 科 中 抽取 
RDF 三 元 组 ， 并 建立 中 英文 实体 间 的 跨 语言 链接 。 目 前 ，XLore KAA 66 万 个 概念 ，5 万 
个 属性 ，1000 万 个 实体 ， 所 有 数据 可 以 通过 在 线 SPARQL Endpoint 查询 得 到 。 

中 文 开 放 知 识 图 谱 联盟 (OpenKG) 旨 在 推动 中 文 知 识 图 谱 的 开放 与 互联 ， 推 动 知识 图 谱 
技术 在 中 国 的 普及 与 应 用 ， 为 中 国人 工 智能 的 发 展 以 及 创新 创业 做 出 贡献 。 联 盟 已 经 搭建 有 
OpenKG.CN 技术 平台 , 目前 已 有 35 家 机 构 入 驻 , 吸引 了 国内 最 著名 的 知识 图 谱 资源 的 加 入 ， 
如 Zhishime、CN-DBPedia、PKUBase， 并 已 经 包含 来 自 于 常识 、 医 疗 、 金 融 、 城 市 、 出 行 等 
15 个 类 目的 开放 知识 图 谱 。 


11.1.4 ”知识 图 谱 在 行业 数据 分 析 中 的 应 用 
1. 股票 投 研 情报 分 析 


通过 知识 图 谱 相 关 技 术 从 招股 书 、 年报、 公司 公告 、 券 商 研究 报告 、 新 闻 等 半 结 构 化 表格 
和 非 结构 化 文本 数据 中 批量 自动 抽取 公司 的 股东 、 子 公司 、 供 应 商 、 客 户 、 合 作 伙伴 、 竞 争 对 
手 等 信息 ， 构 建 出 公司 的 知识 图 谱 。 在 某 个 宏观 经 济 事件 或 者 企业 相关 事件 发 生 的 时 候 ， 券 商 
分 析 师 、 交易 员 、 基金 公 司 基金 经 理 等 投资 研究 人 员 可 以 通过 此 图 谱 做 更 深层 次 的 分 析 和 更 好 
的 投资 决策 , 比如 在 美国 限制 向 中 兴 通 讯 出 口 的 消息 发 布 之 后 , 如 果 我 们 有 中 兴 通 讯 的 客户 供 
应 商 、 合作 伙伴 以 及 竞争 对 手 的 关系 图 谱 , 就 能 在 中 兴 通 讯 停牌 的 情况 下 快速 地 筛选 出 受 影响 
的 国际 、 国 内 上 市 公司 ， 从 而 挖掘 投资 机 会 或 者 进行 投资 组 合 风险 控制 。 
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2. 公安 情报 分 析 


通过 融合 企业 和 个 人 银行 资金 交易 明细 、 通 话 、 出 行 、 住 宿 、 工 商 、 税 务 等 信息 构建 初步 
的 “资金 账户 -人 -公司 ”关联 知识 图 谱 。 同 时 从 案件 描述 、 笔 录 等 非 结 构 化 文本 中 抽取 人 《 受 
害 人 、 嫌 疑 人 、 报 案 人 ) 、 事 、 物 、 组 织 、 卡 号 、 时 间 、 地 点 等 信息 ， 链 接 并 补充 到 原 有 的 知 
识 图 谱 中 , 形成 一 个 完整 的 证 据 链 。 辅助 公安 刑侦 、 经 侦 、 银行 进行 案件 线索 侦查 和 挖掘 同伙 。 
比如 银行 和 公安 经 侦 监 控 资金 账户 ， 当 有 一 段 时 间 内 有 大 量 资金 流动 并 集中 到 某 个 账户 的 时 
候 ， 很 可 能 是 非法 集资 ， 系 统 触发 预警 。 

3. 反 欺 诈 情 报 分 析 

通过 融合 来 自 不 同 数据 源 的 信息 构成 知识 图 谱 , 同时 引入 领域 专家 建立 业务 专家 规则 。 我 
们 通过 数据 不 一 致 性 检测 ， 利 用 绘制 出 的 知识 图 谱 可 以 识别 潜在 的 欺诈 风险 。 比 如 借款 人 张 
xx 和 借款 人 吴 xx 填写 信息 为 同事 , 但 是 两 个 人 填写 的 公司 名 却 不 一 样 ， 以 及 同一 个 电话 号 码 
属于 两 个 借款 人 ， 这 些 不 一 致 性 很 可 能 有 欺诈 行为 。 


11.2 ”知识 图 谱 构 建 的 关键 技术 


人 类 知识 来 源 于 进化 、 经 验 、 文化 传承 〈 可 以 简单 理解 为 “ 零 ” 手 、 一 手 和 二 手 知识 ) ， 
因此 人 工 智 能 终极 算法 的 思路 不 外 乎 是 对 进化 .人 类 经 验 的 数学 化 模拟 以 及 对 知识 本 身 的 不 断 
结构 化 。 各 家 知识 图 谱 厂 商 对 于 人 工 智能 的 流派 总 结 大 多 都 认同 连接 主义 、 行 为 主义 、 符 号 主 
义 这 些 流派 。 其 实 ， 人 工 智 能 的 本 质 就 是 模拟 人 类 学 习 能 力 的 各 个 方面 ， 这 里 学 习 是 广义 的 学 
习 ， 也 就 是 包含 狭义 的 认 知 、 交 流 、 规 划 、 推 理 等 能 力 。 

AlphaGo ZERO 让 人 工 智 能 似乎 完全 走 在 了 经 验 主义 的 路 上 。 知 识 图 谱 不 同 于 经 验 主义 ， 
是 一 种 可 知 的 、 结 构 化 的 方法 。 实 际 上 ， 结 构 化 是 企业 信息 管理 或 数据 管理 工作 一 直 采 用 的 方 
法 ,大 数据 建设 做 的 是 数据 的 结构 化 ， 而 知识 图 谱 向 上 走 了 一 层 ， 做 的 是 知识 的 结构 化 。 从 另 
一 个 意义 上 , 这 两 者 也 不 是 割裂 的 ， 知识 由 数据 构成 ， 企 业 数 据 平台 和 数据 管理 工作 实际 上 是 
知识 图 谱 技术 应 用 的 优势 基础 。 

大 规模 知识 库 的 构建 与 应 用 需要 多 种 技术 的 支持 。 通 过 知识 提取 技术 ， 可 以 从 半 结 构 化 、 
非 结 构 化 和 结构 化 数据 库 的 数据 中 提取 出 实体 、 关 系 、 属 性 等 知识 要 素 。 知 识 表示 则 通过 一 定 
有 效 手段 对 知识 要 素 进行 表示 , 便于 进一步 处 理 使 用 。 然 后 通过 知识 融合 , 可 消除 实体 、 关 系 、 
属性 等 指称 项 与 事实 对 象 之 间 的 歧义 , 形成 高 质量 的 知识 库 。 知识 推理 则 是 在 已 有 的 知识 库 基 
础 上 进一步 挖掘 隐 含 的 知识 ， 从 而 丰富 、 扩展 知识 库 。 分布 式 的 知识 表示 形成 的 综合 向 量 对 知 
识 库 的 构建 、 推 理 、 融 合 以 及 应 用 均 具 有 重要 的 意义 。 因 此 ， 知 识 图 谱 是 一 系列 技术 的 组 合 ， 
分 成 以 下 4 个 层次 。 

© 知识 提取 : 文本 分 析 和 抽取 技术 。 

€ RRS: 语义 计算 、 数 据 整合 和 存储 。 
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€ ”知识 加 工 : 本 体 构 建 、 分 析 推 理 。 
e HREM: 图 谱 可 视 化、 搜索 。 


11.2.1 ”知识 提取 


知识 提取 一 方面 是 面向 开放 的 链接 数据 ,通常 典型 的 输入 是 自然 语言 文本 或 者 多 媒体 内 容 
文档 (图像 或 者 视频 ) 等 。 然 后 通过 自动 化 或 者 半自动 化 的 技术 抽取 出 可 用 的 知识 单元 , 知识 
单元 主要 包括 实体 (概念 的 外 延 )、 关 系 以 及 属性 3 SER, 并 以 此 为 基础 ， 形 成 一 系列 高 质 
量 的 事实 表达 ， 为 上 层 模式 层 的 构建 葛 定 基础 。 

在 处 理 非 结构 化 数据 方面 , 首先 要 对 用 户 的 非 结构 化 数据 提取 正文 。 目前 的 互联 网 数据 存 
在 着 大 量 的 广告 , 正文 提取 技术 希望 有 效 地 过 滤 广 告 而 只 保留 用 户 关注 的 文本 内 容 。 当 得 到 正 
文 文本 后 ,需要 通过 自然 语言 技术 识别 文章 中 的 实体 , 实体 识别 通常 有 两 种 方法 , 一 种 是 用 户 
本 身 有 一 个 知识 库 , 可 以 使 用 实体 链接 将 文章 中 可 能 的 候选 实体 链接 到 用 户 的 知识 库 上 ; 另 一 
种 是 当 用 户 没有 知识 库 时 ,需要 使 用 命名 实体 识别 技术 识别 文章 中 的 实体 。 若 文章 中 存在 实体 
的 别名 或 者 简称 , 还 需要 构建 实体 间 的 同义词 表 , 这 样 可 以 使 不 同 实体 具有 相同 的 描述 。 在 识 
别 实体 的 过 程 中 可 能 会 用 到 分 词 、 词 性 标注 , 在 深度 学 习 模型 中 需要 用 到 分 布 式 表达 ,如 词 向 
量 。 同时 , 为 了 得 到 不 同 粒度 的 知识 , 还 可 能 需要 提取 文中 的 关键 词 、 获 取 文章 的 潜在 主题 等 。 
当 用 户 获得 实体 后 ， 则 需要 关注 实体 间 的 关系 ,我 们 称 为 实体 关系 识别 ， 有 些 实体 关系 识别 的 
方法 会 利用 句法 结构 来 帮助 确定 两 个 实体 间 的 关系 ,因此 在 有 些 算法 中 会 利用 依存 分 析 或 者 语 
义 解 析 。 如 果 用 户 不 仅仅 想 获取 实体 间 的 关系 ,还 想 获取 一 个 事件 的 详细 内 容 ， 那么 需要 确定 
事件 的 触发 词 并 获取 事件 相应 描述 的 句子 ， 同 时 识别 事件 描述 句子 中 实体 对 应 事件 的 角色 。 

在 处 理 半 结构 化 数据 方面 , 主要 的 工作 是 通过 包装 器 学 习 半 结构 化 数据 的 抽取 规则 。 由 于 
半 结 构 化 数据 具有 大 量 的 重复 性 结构 ， 因 此 对 数据 进行 少量 的 标注 可 以 让 机 器 学 会 一 定 的 规 
则 ， 进 而 在 整个 站 点 使 用 规则 ， 对 同类 型 或 者 符合 某 种 关系 的 数据 进行 抽取 。 最 后 ， 当 用 户 的 
数据 存储 在 生产 系统 的 数据 库 中 时 , 需要 通过 ETL 工具 对 用 户 生产 系统 下 的 数据 进行 重新 组 
织 、 清 洗 、 检 测 ， 最 后 得 到 符合 用 户 使 用 目的 的 数据 。 


实体 抽取 


实体 抽取 也 称 为 命名 实体 学 习 (named entity leaning) 或 命名 实体 识别 (named entity 
recognition) ， 指 的 是 从 原始 数据 资料 中 自动 识别 出 命名 实体 。 由 于 实体 是 知识 图 谱 中 最 基本 
的 元 素 ， 其 抽取 的 完整 性 、 准 确 率 等 将 直接 影响 知识 图 谱 构建 的 质量 。 因 此 ， 实 体 抽取 是 知识 
抽取 中 最 为 基础 与 关键 的 一 步 。 我 们 可 以 将 实体 抽取 的 方法 分 为 4 种 : 基于 百科 站 点 或 垂直 站 
点 抽取 、 基 于 规则 与 词典 的 抽取 、 基 于 统计 机 器 学 习 的 抽取 以 及 面向 开放 域 的 抽取 。 基 于 百科 
站 点 或 垂直 站 点 抽取 是 一 种 很 常规 的 提取 方法 ;基于 规则 与 词典 的 抽取 通常 需要 为 目标 实体 编 
写 模板 , 然后 在 原始 资料 中 进行 匹配 ; 基于 统计 机 器 学 习 的 抽取 主要 是 通过 机 器 学 习 的 方法 对 
原始 资料 进行 训练 ， 然 后 利用 训练 好 的 模型 识别 实体 ; 面向 开放 域 的 抽取 将 面向 海量 的 Web 
资料 。 
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第 11 章 知识 图 谱 


CD 基于 百科 或 垂直 站 点 抽取 

基于 百科 站 点 或 垂直 站 点 抽取 这 种 方法 是 从 百科 类 站 点 《如 维基 百科 、 百 度 百科 、 互 动 
百科 等 ) 的 标题 和 链接 中 抽取 实体 名 。 这 种 方法 的 优点 是 可 以 得 到 开放 互联 网 中 最 常见 的 实 
体 名 ， 其 缺点 是 对 于 中 低频 的 覆盖 率 低 。 与 一 般 性 通用 的 网 站 相 比 ， 垂 直 类 站 点 的 实体 抽取 
可 以 获取 特定 领域 的 实体 。 例 如 从 豆 激 各 频道 (音乐 、 读 书 、 电 影 等 ) 获取 各 种 实体 列表 。 
这 种 方法 主要 是 基于 爬虫 技术 来 实现 和 获取 的 。 基 于 百科 类 站 点 或 垂直 站 点 抽取 是 一 种 最 常 
规 和 基本 的 方法 。 


(2) 基于 规则 与 词典 的 实体 提取 方法 

早期 的 实体 抽取 是 在 限定 文本 领域 、 限定 语义 单元 类 型 的 条 件 下 进行 的 , 主要 采用 的 是 基 
于 规则 与 词典 的 方法 ,例如 使 用 已 定义 的 规则 抽取 出 文本 中 的 人 名 、 地 名 、 组 织 机 构 名 、 特 定 
时 间 等 实体 。 后 期 出 现 了 启发 式 算法 与 规则 模板 相 结 合 的 方法 。 然 而 , 基于 规则 模板 的 方法 不 
仅 需要 依靠 大 量 的 专家 来 编写 规则 或 模板 , 覆盖 的 领域 范围 有 限 , 而 且 很 难 适应 数据 变化 的 新 
需求 。 

(3) 基于 统计 机 器 学 习 的 实体 抽取 方法 

鉴于 基于 规则 与 词典 实体 的 局 限 性 , 为 了 更 有 可 扩展 性 , 相关 研究 人 员 将 机 器 学 习 中 的 监 
督学 习 算法 用 于 命名 实体 的 抽取 问题 上 。 例 如 ， 利 用 KNN 算法 与 条 件 随机 场 模型 实现 了 对 
Twitter 文本 数据 中 实体 的 识别 。 单 纯 的 监督 式 学 习 算 法 在 性 能 上 不 仅 受到 训练 集合 的 限制 ， 
并 且 算 法 的 准确 率 不 够 理想 。 相关 研究 者 认识 到 监督 式 学 习 算 法 的 制约 性 后 , 尝试 将 监督 式 学 
习 算法 与 规则 相互 结合 ， 取 得 了 一 定 的 成 果 。 例 如 ， 基 于 字典 ， 使 用 最 大 焙 算 法 在 Medline i£ 
文摘 要 的 GENIA 数据 集 上 进行 了 实体 抽取 实验 ， 实 验 的 准确 率 在 70% 以 上 。 近 年 来 ， 随 着 深 
度 学 习 的 兴起 应 用 ， 基 于 深度 学 习 的 命名 实体 识别 得 到 广泛 应 用 。 例 如 ， 使 用 一 种 基于 双向 
LSTM 深度 神经 网 络 和 条 件 随机 场 的 识别 方法 ， 在 测试 数据 上 取得 最 好 的 表现 结果 。 


(4) 面向 开放 域 的 实体 抽取 方法 

针对 如 何 从 少量 实体 实例 中 自动 发 现 容易 区 分 的 模式 , 进而 扩展 到 海量 文本 , 去 给 实体 做 
分 类 与 聚 类 的 问题 。 例 如 ， 使 用 一 种 通过 友 代 方式 扩展 实体 资料 库 的 解决 方案 ， 其 基本 思想 是 
通过 少量 的 实体 实例 建立 特征 模型 , 再 通过 该 模型 应 用 于 新 的 数据 集 得 到 新 的 命名 实体 。 有 人 
还 使 用 了 一 种 基于 无 监督 式 学 习 的 开放 域 聚 类 算法 , 其 基本 思想 是 基于 已 知 实体 的 语义 特征 去 
搜索 日 志 中 识别 出 命名 的 实体 ， 然 后 进行 聚 类 。 


11.2.2 ”语义 类 抽取 

语义 类 抽取 是 指 从 文本 中 自动 抽取 信息 来 构造 语义 类 并 建立 实体 和 语义 类 的 关联 ,作为 实 
体 层面 上 的 规整 和 抽象 。 下面 介绍 一 种 行 之 有 效 的 语义 类 抽取 方法 , 包含 三 个 模块 : 并 列 相似 
度 计算 、 上 下 位 关系 提取 以 及 语义 类 生成 。 

1. 并 列 相似 度 计算 

并 列 相似 度 计算 的 结果 是 词 和 词 之 间 的 相似 性 信息 ， 例 如 三 元 组 (苹果 ， 梨 ，s1) 表示 


q 
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苹果 和 梨 的 相似 度 是 s1。 两 个 词 有 较 高 的 并 列 相似 度 的 条 件 是 它们 具有 并 列 关系 (同属 于 一 
个 语义 类 ) ， 并 且 有 较 大 的 关联 度 。 按 照 这 样 的 标准 ， 北 京 和 上 海 具有 较 高 的 并 列 相似 度 ， 
而 北京 和 汽车 的 并 列 相似 度 很 低 〈 因 为 它们 不 属于 同一 个 语义 类 ) 。 对 于 海淀 、 朝 阳 、 闵 行 
三 个 市 辖区 来 说 , 海淀 和 朝阳 的 并 列 相似 度 大 于 海淀 和 闵行 的 并 列 相似 度 〈 因 为 前 两 者 的 关 
联 度 更 高 ) 。 

当前 主流 的 并 列 相似 度 计算 方法 有 分 布 相似 度 法 (distributional similarity) 和 模式 匹配 法 
(pattern matching) 。 分布 相似 度 法 基于 哈里 斯 (Harris ) 的 分 布 假设 (distributional hypothesis) , 
即 经 常 出 现在 类 似 的 上 下 文 环境 中 的 两 个 词 具有 语义 上 的 相似 性 。 分 布 相似 度 法 的 实现 分 三 个 
步骤 : 第 一 步 ， 定义 上 下 文 ; 第 二 步 ， 把 每 个 词 表示 成 一 个 特征 向 量 ， 向 量 每 一 维 代 表 一 个 不 
同 的 上 下 文 , 向 量 的 值 表示 本 词 相 对 于 上 下 文 的 权重 ; 第 三 步 , 计算 两 个 特征 向 量 之 间 的 相似 
JE, 将 其 作为 它们 所 代表 的 词 之 间 的 相似 度 。 模式 匹配 法 的 基本 思路 是 把 一 些 模式 作用 于 源 数 
据 , 得 到 一 些 词 和 词 之 间 共 同 出 现 的 信息 , 然后 把 这 些 信息 聚集 起 来 , 生成 单词 之 间 的 相似 度 。 
模式 可 以 是 手工 定义 的 , 也 可 以 是 根据 一 些 种 子 数 据 而 自动 生成 的 。 分 布 相似 度 法 和 模式 匹配 
法 都 可 以 用 来 在 数 以 百 亿 计 的 句子 中 或 者 数 以 十 亿 计 的 网 页 中 抽取 词 的 相似 性 信息 。 


2. 上 下 位 关系 提取 


该 模块 从 文档 中 抽取 词 的 上 下 位 关系 信息 ， 生 成 〈 下 义 词 ， 上 义 词 ) 数据 对 ， 例 如 ( 狗 ， 
动物 ) 、( 悉 尼 , 城市 ) 。 提 取 上 下 位 关系 最 简单 的 方法 是 解析 百科 类 站 点 的 分 类 信息 (如 维 
基 百 科 的 “分 类 ”和 百度 百科 的 “开放 分 类 ”) 。 这 种 方法 的 主要 缺点 是 ， 并 不 是 所 有 的 分 类 
词 条 都 代表 上 位 词 ， 例 如 百度 百科 中 “ 狗 ” 的 开放 分 类 “养殖 ”就 不 是 其 上 位 词 ， 生成 的 关系 
图 中 没有 权重 信息 ， 因 此 不 能 区 分 同一 个 实体 所 对 应 的 不 同上 位 词 的 重要 性 ; 覆盖 率 偏 低 ， 即 
很 多 上 下 位 关系 并 没有 包含 在 百科 站 点 的 分 类 信息 中 ,在 英文 数据 中 ,用 Hearst 模式 和 IsA 模 
式 进行 模式 匹配 被 认为 是 比较 有 效 的 上 下 位 关系 抽取 方法 。 下 面 是 这 些 模式 的 中 文 版 本 (其 中 
NPC 表示 上 位 词 ，NP 表示 下 位 词 ) : 

Nec ( 包括 | 包含 | 有 } (NP. )* [ 等 | 等 等 ] 
nec ( 如 | 比如 | 像 | $0) (NP. }* 

{NP、]}* [{ 以 及 | 和 | 与 } NP] 等 NPC 

(NP, )* { 以 及 | 和 | 与 } { HE! 其 他 } nec 
NP 是 { 一 个 | 一 种 | 一 类 } NPC 

此 外 , 一 些 网 页 表格 中 包含 上 下 位 关系 信息 , 例如 在 带 有 表 头 的 表格 中 ， 表 头 行 的 文本 是 
其 他 行 的 上 位 词 。 

3. 语义 类 生成 

该 模块 包括 聚 类 和 语义 类 标定 两 个 子 模块 。 聚 类 的 结果 决定 了 要 生成 哪些 语义 类 以 及 每 个 
语义 类 包含 哪些 实体 , 而 语义 类 标定 的 任务 是 给 一 个 语义 类 附加 一 个 或 者 多 个 上 位 词 作为 其 成 
员 的 公共 上 位 词 。 此 模块 依赖 于 并 列 相 似 性 和 上 下 位 关系 信息 来 进行 聚 类 和 标定 。 有 些 研 究 工 
作 只 根据 上 下 位 关系 图 来 生成 语义 类 , 但 经 验 表明 , 并 列 相似 性 信息 对 于 提高 最 终生 成 的 语义 
类 的 精度 和 覆盖 率 都 至 关 重 要 。 
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123 ”属性 和 属性 值 抽取 


属性 抽取 的 任务 是 为 每 个 本 体 语义 类 构造 属性 列表 (如 城市 的 属性 包括 面积 、 人 口 、 所 在 
国家 、 地 理 位 置 等 ) ， 而 属性 值 抽 取 则 是 为 一 个 语义 类 的 实体 附加 属性 值 。 属 性 和 属性 值 的 抽 
取 能 够 形成 完整 实体 概念 的 知识 图 谱 维度 。 常 见 的 属性 和 属性 值 抽取 方法 包括 从 百科 类 站 点 中 
提取 、 从 垂直 网 站 中 进行 包装 器 归纳 、 从 网 页 表格 中 提取 以 及 利用 手工 定义 或 自动 生成 的 模式 
从 句子 和 查询 日 志 中 提取 。 常 见 的 语义 类 /实体 的 常见 属性 /属性 值 可 以 通过 解析 百科 类 站 点 中 
的 半 结 构 化 信息 (如 维基 百科 的 信息 盒 和 百度 百科 的 属性 表格 ) 而 获得 。 尽管 通过 这 种 简单 的 
手段 能 够 得 到 高 质量 的 属性 , 但 同时 需要 采用 其 他 方法 来 增加 覆盖 率 (为 语义 类 增加 更 多 属性 
以 及 为 更 多 的 实体 添加 属性 值 ) 。 

垂直 网 站 (如 电子 产品 网 站 、 图 书 网 站 、 电 影 网 站 、 音 乐 网 站 ) 包含 大 量 实体 的 属性 信息 。 
例如 ， 图 书 介绍 的 网 页 中 包含 图 书 的 作者 、 出 版 社 、 出 版 时 间 、 评 分 等 信息 。 通 过 基于 一 定 规 
则 模板 建立 , 便 可 以 从 垂直 站 点 中 生成 包装 器 (或 称 为 模板 )， 并 根据 包装 器 来 提取 属性 信息 。 
从 包装 器 生成 的 自动 化 程度 来 看 ， 这 些 方法 可 以 分 为 手工 法 〈 手 工 编写 包装 器 ) 、 监 督 方法 、 
半 监 督 法 以 及 无 监督 法 。 考 虑 到 需要 从 大 量 不 同 的 网 站 中 提取 信息 , 并 且 网 站 模板 可 能 会 更 新 
等 因素 , 无 监督 包装 器 归纳 方法 显得 更 加 重要 和 现实 。 无 监督 包装 器 归纳 的 基本 思路 是 利用 对 
同一 个 网 站 下 面 多 个 网 页 的 超 文本 标签 树 的 对 比 来 生成 模板 。 简 单 来 看 , 不 同 网 页 的 公共 部 分 
往往 对 应 于 模板 或 者 属性 名 , 不 同 的 部 分 则 可 能 是 属性 值 , 而 同一 个 网 页 中 重复 的 标签 块 则 预 
示 着 重复 的 记录 。 

属性 抽取 的 另 一 个 信息 源 是 网 页 表格 ,表格 的 内 容 对 于 人 来 说 一 目 了 然 , 而 对 于 机 器 而 言 ， 
情况 则 要 复杂 得 多 。 由 于 表格 类 型 千差万别 ， 很 多 表格 制作 得 不 规则 ,加 上 机 器 缺乏 人 所 具有 
的 背景 知识 等 原因 ， 从 网 页 表格 中 提取 高 质量 的 属性 信息 成 为 挑战 。 

上 述 三 种 方法 的 共同 点 是 通过 挖掘 原始 数据 中 的 半 结 构 化 信息 来 获取 属性 和 属性 值 与 通 
过 “阅读 ”句子 来 进行 信息 抽取 的 方法 相 比 , 这 些 方法 绕 开 了 自然 语言 理解 这 样 一 个 “硬骨头 ”， 
而 试图 达到 以 柔 克 刚 的 效果 。 在 现 阶段 ， 计算 机 知识 库 中 的 大 多 数 属性 值 确实 是 通过 上 述 方法 
获得 的 。 但 现实 情况 是 只 有 一 部 分 的 人 类 知识 是 以 半 结 构 化 形式 体现 的 , 而 更 多 的 知识 则 隐藏 
在 自然 语言 句子 中 ， 因 此 直接 从 句子 中 抽取 信息 成 为 进一步 提高 知识 库 覆 盖 率 的 关键 。 当 前 ， 
从 句子 和 查询 日 志 中 提取 属性 和 属性 值 的 基本 手段 是 模式 匹配 和 对 自然 语言 的 浅 层 处 理 。 整 个 
方法 是 一 个 在 句子 中 进行 模式 匹配 而 生成 〈 语 义 类 ， 属 性 ) 关系 图 的 无 监督 的 知识 提取 过 程 。 
此 过 程 分 两 个 步骤 , 第 一 个 步骤 通过 将 输入 的 模式 作用 到 句子 上 而 生成 一 些 ( 词 , 属性 ) 元 组 ， 
这 些 数据 元 组 在 第 二 个 步骤 中 根据 语义 类 进行 合并 而 生成 〈 语 义 类 ， 属 性 ) 关系 图 。 在 输入 中 
包含 种 子 列表 或 者 语义 类 相关 模式 的 情况 下 (比如 (北京 ， 面 积 ) ) ， 整 个 方法 是 一 个 半 监 督 
的 自 举 过 程 ， 分 为 以 下 三 个 步骤 。 


(1) 模式 生成 : 在 句子 中 匹配 种 子 列表 中 的 词 和 属性 从 而 生成 模式 。 模 式 通常 由 词 和 属 
性 的 环境 信息 而 生成 。 

(2) 模式 匹配 。 

(3) 模式 评价 与 选择 : 通过 生成 的 《语义 类 ， 属 性 ) 关系 图 对 自动 生成 的 模式 的 质量 进 
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行 自动 评价 并 选择 高 分 值 的 模式 作为 下 一 轮 匹配 的 输入 。 


1124 ”关系 抽取 


关系 抽取 的 目标 是 解决 实体 语义 链接 的 问题 。 关系 的 基本 信息 包括 参数 类 型 、 满 足 此 关系 
的 元 组 模式 等 。 例 如 ， 关 系 BeCapitalOf (表示 一 个 国家 的 首都 的 基本 信息 如 下 : 
参数 类 型 (Capital, Country) 
JH: (北京 ， 中 国 ) ; 华盛顿， 美国 ) ; 

Capital 和 Country 表示 首都 和 国家 两 个 语义 类 。 

早期 的 关系 抽取 主要 是 通过 人 工 构造 语义 规则 以 及 模板 的 方法 识别 实体 关系 。 随 后 , 实体 
间 的 关系 模型 逐渐 替代 了 人 工 预 定义 的 语法 与 规则 。 但 是 仍 需 要 提前 定义 实体 间 的 关系 类 型 。 

最 初 实体 关系 识别 任务 在 1998 年 的 MUC(Message Understanding Conference ) 中 以 MUC-7 
任务 被 引入 ， 目 的 是 通过 填充 关系 模板 槽 的 方式 抽取 文本 中 特定 的 关系 。1998 年 后 , 在 ACE 
(Automatic Content Extraction) 中 被 定义 为 关系 检测 和 识别 的 任务 。2009 年 ，ACE 并 入 TAC 
(Text Analysis Conference) ， 关 系 抽取 被 并 入 KBP (Knowledge Base Population) 领域 的 村 
填充 任务 。 从 关系 任务 定义 上 ， 分 为 限定 领域 (Close Domain) 和 开放 领域 (Open IE) ; 从 
方法 上 看 ， 实 体 关系 识别 从 流水 线 识别 方法 逐渐 过 渡 到 端 到 端的 识别 方法 。 

基于 统计 学 的 方法 将 从 文本 中 识别 实体 间 关 系 的 问题 转化 为 分 类 问题 ,基于 统计 学 的 方法 
在 实体 关系 识别 时 需要 加 入 实体 关系 上 下 文 信息 确定 实体 间 的 关系 ,然而 基于 监督 的 方法 依赖 
大 量 的 标注 数据 ， 因 此 半 监 督 或 者 无 监督 的 方法 受到 了 更 多 关注 。 


11.2.5 ”知识 表示 


传统 的 知识 表示 方法 主要 是 以 RDF (资源 描述 框架 的 三 元 组 SPO (Subject, Property, 
Object) 来 符号 性 地 描述 实体 之 间 的 关系 。 这 种 表示 方法 通常 很 简单 ， 受 到 广泛 认可 ， 但 是 其 
在 计算 效率 、 数据 稀 跑 性 等 方面 面临 诸多 问题 。 近 年 来 ， 以 深度 学 习 为 代表 的 表示 学 习 技术 取 
得 了 重要 的 进展 , 可 以 将 实体 的 语义 信息 表示 为 稠密 低 维 实 值 向 量 , 进而 在 低 维 空间 中 高 效 计 
算 实体 、 关 系 及 其 之 间 的 复杂 语义 关联 ， 对 知识 库 的 构建 、 推 理 、 融 合 以 及 应 用 均 具 有 重要 的 
知识 表示 学 习 的 代表 模型 有 距离 模型 、 单 层 神经 网 络 模型 、 双 线性 模型 、 神 经 张 量 模型 、 
矩阵 分 解 模型 、 翻 译 模型 等 。 比 如 ,距离 模型 提出 了 知识 库 中 实体 以 及 关系 的 结构 化 和 其 套 方法 
(Structured Embedding, SE) ， 其 基本 思想 是 ， 首 先 将 实体 用 向 量 进行 表示 ， 然 后 通过 关系 
和 矩阵 将 实体 投影 到 与 实体 关系 对 的 向 量 空间 中 ,最 后 通过 计算 投影 向 量 之 间 的 距离 来 判断 实体 
间 已 存在 的 关系 的 置信 度 。 由 于 距离 模型 中 的 关系 矩阵 是 两 个 不 同 的 矩阵 ， 使 得 协同 性 较 差 。 
针对 上 述 提 到 的 距离 模型 中 的 缺陷 , 有 人 提出 了 采用 单 层 神经 网 络 的 非 线 性 模型 Single Layer 
Model, SLM) ， 模 型 为 知识 库 中 每 个 三 元 组 (hrb 定义 了 一 个 评价 函数 。 还 有 一 个 模型 叫 
TransE 模型 ， 它 将 知识 库 中 实体 之 间 的 关系 看 成 是 从 实体 间 的 某 种 平移 ， 并 用 向 量 表示 。 

知识 库 中 的 实体 关系 类 型 也 可 分 为 1-to-1、1-to-N、N-to-1、N-to-N 四 种 类 型 ， 而 复杂 关 
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系 主要 指 的 是 1-to-N、N-to-1、N-to-N 三 种 关系 类 型 。 由 于 TransE 模型 不 能 用 在 处 理 复杂 关 
系 上 ， 一 系列 基于 它 的 扩展 模型 纷纷 被 提出 ， 有 TransH 模型 、TransR 模型 、TransD 模型 、 
TransG 模型 等 。 


11.2.6 ”知识 融合 


通过 知识 提取 实现 了 从 非 结构 化 和 半 结 构 化 数据 中 获取 实体 、 关 系 以 及 实体 属性 信息 的 目 
标 。 但 是 由 于 知识 来 源 广泛 ， 存 在 知识 质量 良 劳 不 齐 、 来 自 不 同 数据 源 的 知识 重复 、 层 次 结构 
缺失 等 问题 , 因此 必须 要 进行 知识 的 融合 。 知 识 融 合 是 高 层次 的 知识 组 织 , 使 来 自 不 同 知识 源 
的 知识 在 同一 框架 规范 下 进行 异 构 数据 整合 、 消 歧 、 加 工 、 推 理 验 证 、 更 新 等 步 又， 达到 数据 、 
信息 、 方 法 、 经 验 以 及 人 的 思想 的 融合 ， 形 成 高 质量 的 知识 库 。 

当知 识 从 各 个 数据 源 下 获取 时 ,需要 提供 统一 的 术语 将 各 个 数据 源 获 取 的 知识 融合 成 一 个 
庞大 的 知识 库 。 提 供 统一 术语 的 结构 或 者 数据 被 称 为 本 体 ， 本 体 不 仅 提供 了 统一 的 术语 字典 ， 
还 构建 了 各 个 术语 间 的 关系 以 及 限制 ,本体 可 以 让 用 户 非常 方便 和 灵活 地 根据 自己 的 业务 建立 
或 者 修改 数据 模型 。 通 过 数据 映射 技术 建立 本 体 中 术语 和 不 同 数据 源 抽取 知识 中 词汇 的 映射 关 
Fey 进而 将 不 同 数据 源 的 数据 融合 在 一 起 。 同 时 ,不 同 源 的 实体 可 能 会 指向 现实 世界 的 同一 个 
客体 , 这 时 需要 使 用 实体 匹配 将 不 同 数据 源 相 同 客体 的 数据 进行 融合 。 不同 本体 间 也 会 存在 某 
些 术语 描述 同一 类 数据 ,对 于 这 些 本 体 ， 则 需要 本 体 融 合 技术 把 不 同 的 本 体 融合 。 最 后 融合 而 
成 的 知识 库 需 要 一 个 存储 、 管理 的 解决 方案 。 知识 存储 和 管理 的 解决 方案 会 根据 用 户 查询 场景 
的 不 同 采用 不 同 的 存储 架构 ， 如 NoSQL 或 者 关系 数据 库 。 同 时 ， 大 规模 的 知识 库 也 符合 大 数 
据 的 特征 ， 因 此 需要 传统 的 大 数据 平台 (如 Spark 或 者 Hadoop) 提供 高 性 能 计算 能 力 ， 支 持 
快速 运算 。 

1. 实体 对 齐 

实体 对 齐 (entity alignment) 也 称 为 实体 匹配 (entity matching)、 实 体 解析 (entity resolution) 
或 者 实体 链接 (entity linking) ， 主 要 用 于 消除 异 构 数 据 中 实体 冲突 、 指 向 不 明 等 不 一 致 性 问 
题 , 可 以 从 顶层 创建 一 个 大 规模 的 统一 知识 库 ， 从 而 帮助 机 器 理解 多 源 异 质 的 数据 ， 形 成 高 质 
量 的 知识 。 

在 大 数据 的 环境 下 ,， 受 知识 库 规模 的 影响 ,在 进行 知识 库 实体 对 齐 时 ， 主 要 会 面临 3 个 方 
面 的 挑战 : (1) 计算 复杂 度 ， 匹 配 算法 的 计算 复杂 度 会 随 知识 库 的 规模 呈 二 次 增长 ， 难 以 接 
AX. (2) 数据 质量 ， 由 于 不 同 知识 库 的 构建 目的 与 方式 有 所 不 同 ， 可 能 存在 知识 质量 良 劳 不 
齐 、 相 似 重 复数 据 、 孤 立 数据 、 数 据 时间 粒 度 不 一 致 等 问题 ，〈3) 先 验 训练 数据 ， 在 大 规模 
知识 库 中 , 想 要 获得 这 种 先 验 数据 非常 困难 , 通常 情况 下 , 需要 研究 者 手工 构造 先 验 训练 数据 。 
综 上 所 述 ， 知 识 库 实体 对 齐 的 主要 流程 包括 : 〈1) 将 待 对 齐 数 据 进 行 分 区 索引 ， 以 降低 计算 
的 复杂 度 ; (2) 利用 相似 度 函 数 或 相似 性 算法 查找 匹配 实例 ; (3) 使 用 实体 对 齐 算 法 进行 实 
例 融 合 (O 将 步骤 O) 与 步骤 G) 的 结果 结合 起 来 ， 形 成 最 终 的 对 齐 结 果 。 对 齐 算 法 可 
分 为 成 对 实体 对 齐 与 集体 实体 对 齐 两 大 类 ,而 集体 实体 对 齐 又 可 分 为 局 部 集体 实体 对 齐 与 全 局 
集体 实体 对 齐 。 
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2. 知识 加 工 

通过 实体 对 齐 可 以 得 到 一 系列 基本 事实 表达 或 初步 的 本 体 雏形 ， 然 而 事实 并 不 等 于 知识 ， 
它 只 是 知识 的 基本 单位 。 要 形成 高 质量 的 知识 , 还 需要 经 过 知识 加 工 的 过 程 ， 从 层次 上 形成 一 
个 大 规模 的 知识 体系 , 统一 对 知识 进行 管理 。 知识 加 工 主要 包括 本 体 构建 与 质量 评估 两 方面 的 
内 容 。 





下。 二 ”知识 计算 及 应 用 


知识 计算 主要 是 根据 图 谱 提 供 的 信息 得 到 更 多 隐 含 的 知识 ,如 通过 本 体 或 者 规则 推理 技术 
可 以 获取 数据 中 存在 的 隐 含 知识 , 而 链接 预测 则 可 以 预测 实体 间 隐 含 的 关系 , 同时 使 用 社会 计 
算 的 不 同 算法 在 知识 网 络 上 计算 获取 知识 图 谱 上 存在 的 社区 , 提供 知识 间 关联 的 路 径 , 通过 不 
一 致 检测 技术 发 现 数据 中 的 噪声 和 缺陷 。 通过 知识 计算 知识 图 谱 可 以 产生 大 量 的 智能 应 用 , 如 
可 以 提供 精确 的 用 户 画 像 为 精准 营销 系统 提供 潜在 的 客户 ; 提供 领域 知识 给 专家 系统 提供 决策 
数据 ， 给 律师 、 医 生 、 公 司 CEO 等 提供 辅助 决策 的 意见 ， 提 供 更 智能 的 检索 方式 ， 使 用 户 可 
以 通过 自然 语言 进行 搜索 ,当然 ， 知 识 图 谱 也 是 问答 必 不 可 少 的 重要 组 件 。 


11.4 企业 知识 图 谱 建设 


有 些 用 户 倾向 于 把 知识 图 谱 简单 化 理解 , 或 者 等 同 于 传统 的 专家 库 , 或 者 认为 就 是 知识 可 
视 化 的 炫 酷 界面 ,知识 图 谱 的 技术 本 质 是 高 效 的 知识 结构 化 和 图 分 析 能 力 ,与 传统 知识 库 相 比 ， 
知识 图 谱 在 知识 构建 部 分 除了 利用 专家 人 工 力量 外 ， 还 利用 文本 挖掘 和 自然 语言 处 理 等 手段 ， 
也 有 可 能 使 用 机 器 学 习 算 法 构建 本 体 , 以 及 从 大 量 的 非 结 构 化 和 半 结 构 化 数据 中 抽取 知识 。 在 
人 、 企 业 、 产 品 、 兴 趣 、 想 法 、 事 实 存在 交织 的 关联 关系 时 ， 使 用 图 分 析 这 些 复杂 的 关系 效率 
高 ， 可 扩展 。 应 用 图 遍历 、 最 短路 径 、 三 角 计 数 、 连 通 分 量 、 类 中 心 等 算法 在 搜寻 目标 实体 、 
识别 实体 关联 、 评 价 关 联 程度 、 发 现 关键 人 物 和 特殊 关系 群体 等 方面 较为 有 效 。 

从 企业 级 信息 管理 的 全 局 视角 看 , 知识 图 谱 无 疑 也 是 其 中 一 种 方式 和 手段 , 其 中 的 技术 组 
件 如 文本 分 析 、 语 义 计算 等 部 分 和 传统 的 数据 采集 、 清洗 、 整 合 在 数据 的 处 理 方法 和 流程 上 很 
多 都 是 类 似 的 , 在 技术 上 也 有 互通 或 重合 的 部 分 。 从 企业 级 数据 建设 和 应 用 的 角度 来 看 ,知识 
图 谱 的 建设 横 跨 多 个 环节 , 在 技术 的 整合 方面 有 较 高 的 复杂 度 , 因此 要 求 一 定 的 数据 基础 和 数 
据 技术 能 力 基 础 ， 比 如 持续 的 数据 管理 和 知识 管理 机 制 、 较 好 的 基础 数据 质量 、 对 数据 技术 能 
力 和 团队 的 积累 等 。 

我 们 认为 , 在 知识 图 谱 走向 行业 应 用 的 时 代 , 可 能 在 落地 的 时 候 不 会 采用 从 零 开始 建设 知 
识 图 谱 全 技术 栈 的 重 方式 ， 很 多 环节 《比如 图 谱 可 视 化 、 自 然 语言 处 理 、 语 义 计算 等 方面 ) 都 
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会 出 现 比较 成 熟 的 技术 组 件 , 然后 结合 业务 进行 深度 定制 和 调 优 。 因此 , 我 们 也 很 有 必要 透 过 
技术 栈 去 抓 住 知识 图 谱 的 技术 本 质 ,一 个 是 知识 结构 化 ， 另 一 个 是 图 分 析 ，, 知识 图 谱 用 新 的 技 





术 在 这 两 方 

















知识 图 谱 库 名 称 | 机构 


表 11-1 几 个 知识 图 谱 库 列表 
特点 、 构 建 手段 


提升 效率 。 抓 住 了 技术 本 质 ， 用 户 方 可 以 避免 纠结 于 概念 或 技术 的 分 歧 , 技术 提 
供 方 则 可 以 避免 陷入 同 质 化 竞争 的 局 面 。 表 11-1 总 结 了 几 个 知识 图 谱 库 。 


应 用 产品 





MetaWeb (2010 年 
被 谷歌 收购 ) 


FreeBase 


Knowledge 
Vault (谷歌 知识 
Bit 


莱比锡 大 学 、 柏 林 
自由 大 学 、 
OpenLink Software 
维基 媒体 基金 会 
(Wikimedia 
Foundation) 

沃 尔 夫 勒 姆 公司 
(Wolfram 
Research) 


YAGO 马克 斯 。 普 朗 克 研 
究 所 


DBpedia 


维基 数据 
(Wikidata) 


Wolfram Alpha 





+ 实体 、 语 义 类 、 属 性 、 关 系 

* 自动 + 人 工 : 部 分 数据 从 维基 百科 等 数 
据 源 抽取 而 得 到 ; 另 一 部 分 数据 来 自 人 工 
协同 编辑 

+ https://developers.google.com/freebase/ 
+ 实体、 语义 类 、 属 性 、 关 系 

* 超大 规模 数据 库 ， 源 自 维基 百科 、 
Freebase、《 世 界 各 国 纪实 年 鉴 》 

* https://research.google.com/pubs/pub45634 
* 实体 、 语 义 类 、 属 性 、 关 系 

“从 维基 百科 抽取 


* 实体 、 语 义 类 、 属 性 、 关 系 ， 与 维基 百 
科 紧 密 结合 

。 人 工 〈 协 同 编辑 ) 

* 实体 、 语 义 类 、 属 性 、 关 系 ， 知 识 计算 
。 部 分 知识 来 自 于 Mathematica， 其 他 知 
识 来 自 于 各 个 垂直 网 站 

+ 实体、 语义 类 、 属 性 、 关 系 ， 知 识 计 算 
* 自动 + 人 工 

。 自 动 : 从 维基 百科 、WordNet 和 
GeoNames 提取 信息 


Google Search 
Engine, Google Now 


Google Search 
Engine, Google Now 


DBpedia 


Wikidata 


Apple Siri 


Bing Search Engine, 
Microsoft Cortana 
YAGO 


























Facebook Social | Facebook * Facebook 社交 网 络 数据 Social Graph Search 
Graph 
百度 知识 图 谱 百度 + 搜索 结构 化 数据 百度 搜索 
搜狗 知 立方 搜狗 * 搜索 结构 化 数据 搜狗 搜索 
ImageNet 斯 坦 福 大 学 -BRIZ 计算 机 视觉 相关 应 用 
* i AMT 
知识 图 谱 是 知识 工程 的 一 个 分 支 , 以 知识 工程 中 的 语义 网 络 作为 理论 基础 , 并 且 结合 了 机 











器 学 习 、 自 然 语 言 处 理 、 知 识 表示 和 推理 的 最 新 成 果 , 在 大 数据 的 推动 下 受到 了 业界 和 学 术 界 
的 广泛 关注 。 知 识 图 谱 对 于 解决 大 数据 中 的 文本 分 析 和 图 像 理 解 问题 发 挥 着 重要 作用 。 目 前 ， 
知识 图 谱 研 究 已 经 取得 了 很 多 成 果 , 形成 了 一 些 开放 的 知识 图 谱 。 但 是 , 知识 图 谱 的 发 展 还 存 
在 以 下 障碍 。 首先， 虽然 大 数据 时 代 已 经 产生 了 海量 的 数据 ,但 是 数据 发 布 缺 乏 规范 ,而 且 数 
据 质量 不 高 ， 从 这 些 数 据 中 挖掘 高 质量 的 知识 需要 处 理 数据 噪音 问题 ; 其 次 , 垂直 领域 的 知识 
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图 谱 构建 缺乏 自然 语言 处 理 方面 的 资源 ,特别 是 词典 的 匮乏 使 得 垂直 领域 知识 图 谱 构建 代价 很 
大 ; 最 后 ， 知 识 图 谱 构建 缺乏 开源 的 工具 ， 目 前 很 多 研究 工作 都 不 具备 实用 性 ， 而 且 很 少 有 工 
具 发 布 。 通 用 的 知识 图 谱 构建 平台 还 很 难 实现 。 
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什么 是 数据 挖掘 


数据 挖掘 是 指 有 组 织 、 有 目的 地 收集 数据 、 分 析 数 据 , 并 从 大 量 数据 中 提取 出 有 用 的 信息 ， 
从 而 寻找 出 数据 中 存在 的 规律 、 规 则 、 知 识 以 及 模式 、 关 联 、 变 化 、 异 常 和 有 意义 的 结构 。 数 
据 挖掘 是 一 种 从 大 量 数据 中 寻找 存在 的 规律 、 规 则 、 知 识 以 及 模式 、 关 联 、 变 化 、 异 常 和 有 意 
义 的 结构 的 技术 ,是 统计 学 、 数 据 库 技 术 和 人 工 智 能 技术 等 技术 的 综合 。 数 据 挖掘 是 一 门 涉及 
面 很 广 的 交叉 学 科 ， 包 括 数理 统计 、 人 工 智 能 、 计 算 机 等 ， 涉 及 机 器 学 习 、 数 理 统计 、 神 经 网 
络 、 数 据 库 、 模 式 识 别 、 粗 糙 集 、 模 糊 数学 等 相关 技术 。 

数据 挖掘 大 部 分 的 价值 在 于 利用 数据 挖掘 技术 改善 预测 模型 、 产 生 学 术 价 值 、 促 进 生产 、 
产生 并 促进 商业 利益 ， 一 切 都 是 为 了 商业 价值 (数据 一 信息 一 知识 一 商业 ) 。 数 据 挖 掘 的 最 终 
目的 是 实现 数据 的 价值 ,所 以 ,单纯 的 数据 挖掘 是 没有 多 大 意义 的 。 数 据 挖掘 的 作用 是 从 大 量 
数据 中 寻找 存在 的 规律 、 规 则 、 知 识 以 及 模式 、 关 联 、 变 化 、 异 常 和 有 意义 的 结构 。 

数据 挖掘 技术 (方法 ) 分 为 以 下 两 大 类 。 

€ 预言 (Predication ) : 用 历史 预测 未 来 。 

€ ”描述 (Description) : 了 解数 据 中 潜在 的 规律 。 





12.1.1 数据 挖掘 技术 产生 的 背景 

数据 正在 以 空前 的 速度 增长 ， 现 在 的 数据 是 海量 的 大 数据 。 现 在 不 缺乏 数据 ,但 是 却 面临 
一 个 尴 傣 的 境地 一 一 数据 极其 丰富 ， 信 息 知识 匮乏 。 还 有 , 海量 的 大 数据 已 经 远 远 超出 了 人 类 
的 理解 能 力 ,如果 不 借助 强大 的 工具 和 技术 ,很 难 弄 清 楚 大 数据 中 所 蕴含 的 信息 和 知识 。 重 要 
决策 如 果 只 是 基于 决策 制定 者 的 个 人 经 验 ,而 不 是 基于 信息 、 知 识 丰 富 的 数据 , 就 极 大 地 浪费 
了 数据 ， 也 给 我 们 的 商业 、 学 习 、 工 作 、 生 产 带 来 了 极 大 的 不 便 和 巨大 的 阻碍 。 所 以 ， 能 够 方 
便 、 高 效 、 快 速 地 从 大 数据 里 提取 出 巨大 的 信息 和 知识 是 必须 解决 的 ， 因 此， 数据 挖掘 技术 应 
运 而 生 。 数 据 挖掘 填补 了 数据 和 信息 、 知 识 之 间 的 鸿沟 。 


12.1.2 ”数据 挖掘 与 数据 分 析 的 区 别 
数据 分 析 包 含 广义 的 数据 分 析 和 狭义 的 数据 分 析 。 广 义 的 数据 分 析 包 括 狭义 的 数据 分 析 和 
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数据 挖掘 ， 而 我 们 常 说 的 数据 分 析 就 是 指 狭 义 的 数据 分 析 。 

1. 数据 分 析 ( 狭义 ) 

简单 来 说 , 狭义 的 数据 分 析 就 是 对 数据 进行 分 析 。 专业 的 说 法 是 , 狭义 的 数据 分 析 是 指 根 
据 分 析 目的 , 用 适当 的 统计 分 析 方 法 及 工具 对 收集 来 的 数据 进行 处 理 与 分 析 , 提取 有 价值 的 信 
息 , 发 挥 数 据 的 作用 。 狭义 的 数据 分 析 主 要 实现 三 大 作用 : 现状 分 析 、 原因 分 析 和 预测 分 析 ( 定 
量 ) 。 狭 义 的 数据 分 析 的 目标 明确 ， 先 做 假设 ， 然 后 通过 数据 分 析 来 验证 假设 是 否 正确 ， 从 而 
得 到 相应 的 结论 。 狭 义 的 数据 分 析 主 要 采用 对 比分 析 、 分 组 分 析 、 交 叉 分 析 、 回 归 分 析 等 分 析 
方法 。 狭 义 的 数据 分 析 一 般 都 是 得 到 一 个 指标 统计 量 结果 ， 比 如 总 和 、 平 均值 等 ， 这 些 指标 数 
据 需 要 与 业务 结合 进行 解读 ， 才 能 发 挥 出 数据 的 价值 与 作用 。 

2. 数据 挖掘 

数据 挖掘 是 指 从 大 量 的 数据 中 ， 通 过 统计 学 、 人 工 智能 、 机 器 学 习 等 方法 挖掘 出 未 知 的 、 
具有 价值 的 信息 和 知识 的 过 程 。 数 据 挖掘 主要 侧重 解决 4 类 问题 ， 即 分 类 、 聚 类 、 关 联 和 预测 
(定量 、 定 性 ) 。 数 据 挖掘 的 重点 在 于 寻找 未 知 的 模式 与 规律 。 比 如 ， 我 们 常 说 的 数据 挖掘 案 
例 : 啤酒 与 尿布 、 安 全 套 与 巧克力 等 ， 就 是 事先 未 知 的 ， 但 又 是 非常 有 价值 的 信息 。 数 据 挖掘 
主要 采用 决策 树 、 神 经 网 络 、 关 联 规则 、 聚 类 分 析 等 统计 学 、 人 工 智能 、 机 器 学 习 等 方法 进行 
挖掘 。 数 据 挖掘 的 结果 是 输出 模型 或 规则 ， 并 且 可 相应 得 到 模型 得 分 或 标签 ， 模 型 得 分 如 流失 
概率 值 、 总 和 得 分 、 相 似 度 、 预 测 值 等 ， 标 签 如 高 中 低 价值 用 户 、 流 失 与 非 流失 、 信 用 优良 中 
差 等 。 

BZ, 数据 分 析 ( 狭 义 ) 与 数据 挖掘 的 本 质 是 一 样 的 ， 都 是 从 数据 里 面 发 现 关 于 业务 的 知 
识 ( 有 价值 的 信息 )， 从 而 帮助 业务 运营 、 改 进 产品 以 及 帮助 企业 做 更 好 的 决策 。 数 据 分 析 ( 狭 
义 ) 与 数据 挖掘 构成 广义 的 数据 分 析 。 


12.2 数据 挖掘 技术 (方法 ) 


数据 挖掘 常用 的 方法 有 分 类 、 聚 类 、 回 归 分 析 、 关 联 规则 、 神 经 网 络 、 特 征 分 析 、 偏 差分 
析 等 。 这 些 方法 从 不 同 的 角度 对 数据 进行 挖掘 。 


12.2.1 分 类 


分 类 的 含义 就 是 找 出 数据 库 中 的 一 组 数据 对 象 的 共同 特点 并 按照 分 类 模式 将 其 划分 为 不 
同 的 类 。 分 类 是 依靠 给 定 的 类 别 对 对 象 进行 划分 的 。 分 类 的 目的 是 通过 分 类 模型 将 数据 库 中 的 
数据 项 映射 到 某 个 给 定 的 类 别 中 。 分 类 的 应 用 包括 客户 的 分 类 、 客 户 的 属性 和 特征 分 析 、 客 户 
满意 度 分 析 、 客 户 的 购买 趋势 预测 等 。 

主要 的 分 类 方法 包括 决策 树 、KNN 法 (K-Nearest Neighbor) ~ SVM 法 、VSM 法 、Bayes 
法 、 神 经 网 络 等 。 分 类 算法 是 有 局 限 性 的 。 分 类 作为 一 种 监督 式 学 习 方法 ， 要 求 必须 事先 明确 
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知道 各 个 类 别 的 信息 , 并 且 断 言 所 有 待 分 类 项 都 有 一 个 类 别 与 之 对 应 。 但 是 很 多 时 候 上 述 条 件 
得 不 到 满足 ,尤其 是 在 处 理 海量 数据 的 时 候 ,如 果 要 通过 预 处 理 使 得 数据 满足 分 类 算法 的 要 求 ， 
那么 代价 非常 大 ， 这 时 候 可 以 考虑 使 用 聚 类 算法 。 


12.2.2 RŽ 


聚 类 的 含义 是 指 事先 并 不 知道 任何 样本 的 类 别 标号 , 按照 对 象 的 相似 性 和 差异 性 , 把 一 组 
对 象 划分 成 若干 类 , 并 且 每 个 类 里 面 对 象 之 间 的 相似 度 较 高 , 不 同类 里 面 对 象 之 间 的 相似 度 较 
低 或 差异 明显 。 我 们 并 不 关心 某 一 类 是 什么 ， 需 要 实现 的 目标 只 是 把 相似 的 东西 聚 到 一 起 ， 聚 
类 是 一 种 无 监督 式 学 习 方法 。 

聚 类 与 分 类 的 区 别 是 ， 聚 类 类 似 于 分 类 , 但 是 与 分 类 不 同 的 是 ， 聚 类 不 依靠 给 定 的 类 别 对 
对 象 进行 划分 ,而 是 根据 数据 的 相似 性 和 差异 性 将 一 组 数据 分 为 几 个 类 别 。 聚 类 与 分 类 的 目的 
不 同 。 聚 类 要 按照 对 象 的 相似 性 和 差异 性 将 对 象 进 行 分 类 , 属于 同一 类 别 的 数据 间 的 相似 性 很 
大 , 但 不 同类 别 之 间 数 据 的 相似 性 很 小 ， 跨 类 的 数据 关联 性 很 低 。 组 内 的 相似 性 越 大 , 组 间 差 
别 越 大 ， 聚 类 就 越 好 。 

主要 的 聚 类 算法 可 以 划分 5 类 ， 即 划分 方法 、 层 次 方法 、 基 于 密度 的 方法 、 基 于 网 格 的 方 
法 和 基于 模型 的 方法 。 每 一 类 中 都 存在 得 到 广泛 应 用 的 算法 ， 划分 方法 中 有 K-Means 聚 类 算 
法 ,层次 方法 中 有 凝聚 型 层次 聚 类 算法 ， 基 于 模型 的 方法 中 有 神经 网 络 聚 类 算法 。 聚 类 可 以 应 
用 到 客户 群体 的 分 类 、 客 户 背景 分 析 、 客 户 购买 趋势 预测 、 市 场 的 细 分 等 。 


12.2.3 回归 分 析 


回归 分 析 是 一 个 统计 预测 模型 ， 用 以 描述 和 评估 因 变 量 与 一 个 或 多 个 自 变量 之 间 的 关系 。 它 
反映 的 是 事务 数据 库 中 属性 值 在 时 间 上 的 特征 ， 产 生 一 个 将 数据 项 映射 到 一 个 实 值 预测 变量 的 函 
数 ， 发 现 变量 或 属性 间 的 依赖 关系 。 回 归 分 析 反映 了 数据 库 中 数据 的 属性 值 在 时 间 上 的 特征 ， 通 
过 函数 表达 数据 映射 的 关系 来 发 现 属性 值 之 间 的 依赖 关系 。 回 归 分 析 方 法 被 广泛 地 用 于 解释 市 场 
占有 率 、 销 售 额 、 品 牌 偏好 及 市 场 营销 效果 。 它 可 以 应 用 到 市 场 营销 的 各 个 方面 ， 如 客户 寻求 、 
保持 和 预防 客户 流失 活动 、 产 品 生命 周期 分 析 、 销 售 趋势 预测 及 有 针对 性 的 促销 活动 等 。 

回归 分 析 的 主要 研究 问题 包括 数据 序列 的 趋势 特征 、 数据 序列 的 预测 、 数 据 间 的 相关 关系 等 。 








12.24 ”关联 规则 


关联 规则 是 隐藏 在 数据 项 之 间 的 关联 或 相互 关系 , 即 可 以 根据 一 个 数据 项 的 出 现 推导 出 其 

他 数据 项 的 出 现 。 关联 规则 是 描述 数据 库 中 数据 项 之 间 所 存在 的 关系 的 规则 。 关联 规则 的 目的 

(作用 ) 是 发 现 隐 藏 在 数据 间 的 关联 或 相互 关系 , 从 一 件 事情 的 发 生来 推测 另 一 件 事情 的 发 生 ， 
从 而 更 好 地 了 解 和 掌握 事物 的 发 展 规律 等 。 

关联 规则 的 挖掘 过 程 主要 包括 两 个 阶段 :第 一 阶段 为 从 海量 原始 数据 中 找 出 所 有 的 高 频 项 

目 组 ; 第 二 阶段 为 从 这 些 高 频 项 目 组 产生 关联 规则 。 关联 规则 挖掘 技术 已 经 被 广泛 应 用 于 金融 

行业 企业 中 ， 用 以 预测 客户 的 需求 ， 各 银行 在 自己 的 ATM 机 上 通过 捆绑 客户 可 能 感 兴趣 的 
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信息 供用 户 了 解 并 获取 相应 信息 来 改善 自身 的 营销 。 


1225 ”神经 网 络 方法 


神经 网 络 作为 一 种 先进 的 人 工 智能 技术 , 因 其 自身 自行 处 理 、 分 布 存 储 和 高 度 容错 等 特性 ， 
非常 适合 处 理 非 线 性 的 问题 ， 以 及 那些 以 模糊 、 不 完整 、 不 严密 的 知识 或 数据 为 特征 的 问题 ， 
这 一 特点 十 分 适合 解决 数据 挖掘 的 问题 。 

典型 的 神经 网 络 模型 主要 分 为 三 大 类 :第 一 类 是 用 于 分 类 预测 和 模式 识别 的 前 馈 式 神经 网 
络 模型 ， 其 主要 代表 为 函数 型 网 络 、 感 知 机 ; 第 二 类 是 用 于 联想 记忆 和 优化 算法 的 反馈 式 神经 
网 络 模型 ， 以 Hopfield 的 离散 模型 和 连续 模型 为 代表 ; 第 三 类 是 用 于 到 类 的 自 组 织 映 射 方法 ， 
以 ART 模型 为 代表 。 虽 然 神经 网 络 有 多 种 模型 及 算法 ， 但 在 特定 领域 的 数据 挖掘 中 使 用 哪 种 
模型 及 算法 没有 统一 的 规则 ， 而 且 人 们 很 难 理解 网 络 的 学 习 及 决策 过 程 。 


12.2.6 Web 数据 挖掘 


Web 数据 挖掘 是 一 项 综合 性 技术 , 指 从 Web 文档 结构 和 使 用 的 集合 C 中 发 现 隐 含 的 模式 
P， 如 果 将 C 看 作 输入 ， 将 P 了 看 作 输出 ， 那 么 Web 挖掘 过 程 就 可 以 看 作 是 从 输入 到 输出 的 一 
个 映射 过 程 。Web 数据 挖掘 的 研究 对 象 是 以 半 结 构 化 和 无 结构 文档 为 中 心 的 Web， 这 些 数 据 
没有 统一 的 模式 , 数据 的 内 容 和 表示 互相 交织 , 数据 内 容 基 本 上 没有 语义 信息 进行 描述 , 仅仅 
依靠 HTML 语法 对 数据 进行 结构 上 的 描述 。 当 前 , 越 来 越 多 的 Web 数据 以 数据 流 的 形式 出 现 ， 
因此 对 Web 数据 流 挖掘 具有 很 重要 的 意义 。 

目前 ， 常 用 的 Web 数据 挖掘 算法 包括 PageRank 算法 、HITS 算法 、LOGSOM 算法 。 这 
三 种 算法 提 到 的 用 户 都 是 笼统 的 用 户 ， 并 没有 区 分 用 户 的 个 体 。 

Web 数据 挖掘 应 用 得 很 广泛 。 它 可 以 利用 Web 的 海量 数据 进行 分 析 ， 收 集 政治 、 经 济 、 
政策 、 科 技 、 金 融 、 各 种 市 场 、 竞 争 对 手 、 供 求 信息 、 客 户 等 有 关 的 信息 ， 集 中 精力 分 析 和 处 
理 那 些 对 企业 有 重大 或 潜在 重大 影响 的 外 部 环境 信息 和 内 部 经 营 信息 , 并 根据 分 析 结 果 找 出 企 
业 管理 过 程 中 出 现 的 各 种 问题 和 可 能 引起 危机 的 先兆 ,对 这 些 信息 进行 分 析 和 处 理 , 以 便 识别 、 
分 析 、 评 价 和 管理 危机 。 

目前 ，Web 数据 挖掘 面临 着 一 些 问题 : 用 户 的 分 类 问题 、 网 站 内 容 时 效 性 问题 、 用 户 在 
页 面 的 停留 时 间 问 题 、 页 面 的 链 入 与 链 出 数 问题 等 。 


12.2.7 ”特征 分 析 


特征 分 析 是 从 数据 库 中 的 一 组 数据 中 提取 出 关于 这 些 数据 的 特征 式 ,这 些 特征 式 表达 了 该 
数据 集 的 总 体 特征 。 特 征 分 析 的 目的 (作用 ) 在 于 从 海量 数据 中 提取 出 有 用 信息 ， 从 而 提高 数 
据 的 使 用 效率 。 

特征 分 析 的 应 用 : 营销 人 员 通 过 对 客户 流失 因素 的 特征 提取 , 可 以 得 到 导致 客户 流失 的 一 
系列 原因 和 主要 特征 ， 利 用 这 些 特征 可 以 有 效 地 预防 客户 的 流失 。 
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12.2.8 ”偏差 分 析 


偏差 是 数据 集中 的 小 比例 对 象 。 通常 偏差 对 象 被 称 为 离 群 点 、 例 外 、 野 点、 异常 等 。 偏 
差分 析 就 是 发 现 与 大 部 分 其 他 对 象 不 同 的 对 象 .偏差 分 析 的 应 用 :在 企业 危机 管理 及 其 预警 中 ， 
管理 者 更 感 兴趣 的 是 那些 意外 规则 。 意 外 规则 的 挖掘 可 以 应 用 到 各 种 异常 信息 的 发 现 、 分 析 、 
识别 、 评 价 和 预警 等 方面 。 而 其 成 因 源 于 不 同 的 类 、 自 然 变 异 、 数 据 测 量 或 收集 误差 等 。 

异常 

€ Hawkins 给 出 了 异常 的 本 质 性 的 定义 : 异常 是 数据 集中 与 众 不 同 的 数据 ,使 人 怀疑 这 

些 数 据 并 非 随 机 偏差 ， 而 是 产生 于 完全 不 同 的 机 制 。 

@ 聚 类 算法 对 异常 的 定义 : 异常 是 聚 类 诅 于 其 中 的 背景 噪声 。 

@ 异常 检测 算法 对 异常 的 定义 : 异常 是 既 不 属于 聚 类 也 不 属于 背景 噪声 的 点 , 其 行为 与 

正常 的 行为 有 很 大 不 同 。 


12.9 大 数据 思维 


“数据 驱动 决策 ”， 那 么 ， 在 大 数据 挖掘 时 ， 我 们 应 该 具备 什么 样 的 大 数据 思维 呢 ? 


12.3.1 “信和 度 与 效 度 思维 


信 度 与 效 度 的 概念 最 早 来 源 于 调查 分 析 , 但 现在 我 觉得 可 以 引申 到 数据 分 析 工 作 的 各 个 方 
面 。 所谓 “信和 度 ”， 是 指 一 个 数据 或 指标 自身 的 可 靠 程度 ， 包 括 准 确 性 和 稳定 性 。 取 数 逻 辑 是 
否 正确 ， 有 没有 计算 错误 ,这 属于 准确 性 ; 每 次 计算 的 算法 是 否 稳定 ,口径 是 否 一 致 ， 以 相同 
的 方法 计算 不 同 的 对 象 时 ， 准 确 性 是 否 有 波动 ， 这 是 稳定 性 。 做 到 了 以 上 两 个 方面 ， 就 是 一 个 
好 的 数据 或 指标 了 吗 ? 其 实 还 不 够 ， 还 有 一 个 更 重要 的 因素 ， 就 是 效 度 。 所 谓 “ 效 度 ”， 是 指 
一 个 数据 或 指标 的 生成 需 贴 合 它 所 要 衡量 的 事物 ， 即 指标 的 变化 能 够 代表 该 事物 的 变化 。 

只 有 在 信 度 和 效 度 上 都 达标 ， 才 是 一 个 有 价值 的 数据 指标 。 举 个 例子 ， 要 衡量 身体 的 肥胖 
情况 ， 选 择 穿 衣 的 号 码 作为 指标 。 一 方面 ， 相 同 的 衣服 尺码 对 应 的 实际 衣服 大 小 是 不 同 的 , 会 
有 美 版 、 韩 版 等 因素 ,使 得 准确 性 很 差 ， 另 一 方面 一会儿 穿 这 个 牌子 的 衣服 一会儿 穿 那个 
牌子 的 衣服 ,使 得 该 衡量 方式 形成 的 结果 很 不 稳定 。 所以， 衣服 尺码 这 个 指标 的 信 度 不 够 。 另 
一 方面 , 衡量 身体 肥胖 情况 用 衣服 的 尺码 大 小 ? 你 一 定 觉得 荒唐 , 尺码 大 小 并 不 能 反映 肥胖 情 
况 ， 因 此 效 度 也 不 足 。 体 脂 率 才 是 信 度 和 效 度 都 比较 达标 的 肥胖 衡量 指标 。 

信 度 和 效 度 的 本 质 其 实 就 是 “数据 质量 ”的 问题 ， 这 是 一 切 分 析 的 基石 ， 再 怎么 重视 都 不 
过 分 。 





























12.3.2 ”分 类 思维 
客户 分 群 、 产 品 归 类 、 市场 分 级 、 绩效 评价 等 许多 事情 都 需要 有 分 类 的 思维 。 主 管 拍 脑袋 
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可 以 分 类 ,通过 机 器 学 习 算 法 也 可 以 分 类 ,那么 许多 人 就 模糊 了 ,到 底 分 类 思维 怎么 应 用 呢 ? 
关键 点 在 于 , 分 类 后 的 事物 需要 在 核心 指标 上 能 拉 开 距离 , 也 就 是 说 分 类 后 的 结果 必须 是 显著 
的 。 如 图 12-1 所 示 ， 横 轴 和 纵 轴 往往 是 运营 中 关注 的 核心 指标 当然 不 限于 二 维 ) ， 对 于 分 
类 后 的 对 象 ， 能够 看 到 它们 的 分 布 不 是 随机 的 ,而 是 有 显著 的 集群 的 倾向 。 举 个 例子 , 假设 图 
12-1 反映 了 某 个 消费 者 分 群 的 结果 ， 横 轴 代 表 购 买 频 率 ， 纵 轴 代 表 客 单价 ， 那 么 绿色 的 这 群 
A EEA) 就 是 明显 的 “人 傻 钱 多 ”的 “市 手 金牌 客户 ”。 





123 分 类 图 
12.3.3 ”漏斗 思 


漏斗 思维 OLEI 1220 已 经 普及 ， 注 册 转化 、 购 买 流 程 、 销 售 管道 、 浏 览 路 径 等 太 多 的 
分 析 场 景 中 能 找到 这 种 思维 的 影子 。 但 是 ， 看 上 去 越 是 普 世 〈 所 有 人 都 认同 ) 越 是 容易 理解 的 
模型 ， 它 的 应 用 越 得 谨慎 和 小 心 。 在 漏斗 思维 中 ， 我 们 尤其 要 注意 “漏斗 的 长 度 ”。 


12-2 漏斗 思维 


漏斗 从 哪里 开始 ， 到 哪里 结束 ?以 我 们 的 经 验 , 漏斗 的 环节 不 该 超过 5 个 ， 且 漏斗 中 各 个 
环节 的 百分比 数值 的 量 级 不 要 超过 100 fi (漏斗 第 一 环节 以 100% 开 始 ， 到 最 后 一 个 环节 的 转 
化 率 数值 不 要 低 于 1%) 。 若 超过 了 这 两 个 数值 标准 ， 建 议 分 为 多 个 漏斗 进行 观察 。 超 过 5 个 
环节 , 往往 会 出 现 多 个 重点 环节 , 在 一 个 漏斗 模型 中 分 析 多 个 重要 问题 容易 产生 混乱 。 数 值 量 
级 差距 过 大 ， 数 值 间 波动 的 相互 关系 很 难 被 察觉 ， 容 易 遗 漏 信息 。 比 如 ， 漏 斗 前 面 的 环节 从 
60% 变 到 50%， 让 你 感觉 是 天 大 的 事情 ， 而 漏斗 最 后 的 环节 0.1% 的 变动 不 能 引起 你 的 注意 ， 
可 往往 漏斗 最 后 这 0.1% 的 变动 是 非常 致命 的 。 


12.3.4 ”逻辑 树 思维 

如 图 12-3 所 示 为 树 状 逻 辑 。 一 般 说 明 逻 辑 树 的 分 叉 时 ， 都 会 提 到 “分 解 ” 和 “汇总 ”的 
概念 。 在 这 里 可 以 把 它 变 一 变 ， 使 其 更 贴近 数据 分 析 ， 称 为 “下 钴 ”和 “上 卷 ”。 所 谓 下 钻 
就 是 在 分 析 指标 的 变化 时 ， 按 一 定 的 维度 不 断 地 分 解 。 比 如 ， 按 地 区 维度 ， 从 大 区 到 省 份 ， 从 
省 份 到 城市 ， 从 省 市 到 区 。 所 谓 上 卷 ， 就 是 反 过 来 。 随 着 维度 的 下 钼 和 上 卷 ， 数 据 会 不 断 细 分 
和 汇总 ， 在 这 个 过 程 中 ， 我 们 往往 能 找到 问题 的 根源 。 
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图 12-3 ”逻辑 树 思维 

下 钼 和 上 卷 并 不 局 限于 一 个 维度 , 往往 是 多 维 组 合 的 节点 进行 分 又 。 逻 辑 树 引 申 到 算法 领 
域 就 是 决策 树 ， 关 键 是 何 时 做 出 决策 (判断 ) 。 当 进行 分 叉 时， 我 们 往往 会 选择 差别 最 大 的 一 
个 维度 进行 拆 分 , 若 差别 不 够 大 , 则 这 个 枝 权 就 不 再 细 分 。 能够 产生 显著 差别 的 节点 会 被 保留 ， 
并 继续 细 分 ， 直 到 分 不 出 差别 为 止 。 经 过 这 个 过 程 ， 我 们 就 能 找 出 影响 指标 变化 的 因素 。 

举 个 简单 的 例子 , 我 们 发 现 全 国 客户 数量 下 降 了 , 从 地 区 和 客户 年 龄 层级 两 个 维度 先进 行 
观察 ,发现 各 个 年 龄 段 的 客户 数量 都 下 降 了 , 而 地 区 间 有 的 下 降 有 的 升 高 ,那么 就 按 地 区 来 拆 
分 第 一 个 逻辑 树 节点 , 拆 分 到 大 区 后 ,发 现 各 省 间 的 差别 显著 , 就 继续 拆 分 到 城市 ， 最 终 发 现 
是 浙江 省 杭州 市 大 量 客户 (涵盖 各 个 年 龄 段 ) 被 竞争 对 手 的 一 波 推 广 活动 转化 走 了 。 因 此 , 通 
过 三 个 层级 的 逻辑 树 找到 了 原因 。 





12.3.5 ”时 间 序 列 思 


很 多 问题 ,我 们 找 不 到 横向 对 比 的 方法 和 对 象 ， 那么 ， 和 历史 上 的 状况 比 ,就 将 变 得 非常 
重要 。 其实 很 多 时 候 , 我 们 更 愿意 用 时 间 维 度 的 对 比 来 分 析 问 题 ， 毕竟 发 展 地 看 问题 也 是 重要 
的 一 环 。 时 间 序 列 的 思维 有 三 个 关键 点 : 一 是 “ 距 今 越 近 的 时 间 点 ， 越 要 重视 ” (图 12-4 中 
的 深浅 度 ， 越 是 近期 发 生 的 事 ， 越 有 可 能 再 次 发 生 ) ; 二 是 要 做 “同比 ” (图 12-4 中 的 箭头 
指示 ,指标 往往 存在 某 些 周期 性 ， 需 要 在 周期 中 的 同一 阶段 进行 对 比 才 有 意义 ); 三 是 “异常 
值 出 现时 ， 需 要 重视 ”( 比 如 出 现 了 历史 最 低 值 或 历史 最 高 值 ， 建 议 在 时 间 序 列 作 图 时 ， 添 加 
平均 值 线 和 平均 值 加 减 一 倍 或 两 倍 标准 差 线 ， 便 于 观察 异常 值 ) 。 





i ERN 


Fd 12-4 时 间 序 列 思维 


时 间 序 列 思维 有 一 个 子 概念 不 得 不 提 一 下 ， 就 是 “生命 周期 ”的 概念 。 用 户 、 产 品 、 人 事 
等 无 不 有 生命 周期 存在 。 清 楚 地 衡量 生命 周期 ,就 能 很 方便 地 确定 一 些 “ 阀 值 ”问题 ,使 产品 
和 运营 的 节奏 更 明确 。 


12.3.6 ”指数 化 思 
指数 化 思维 是 指 将 衡量 一 个 问题 的 多 个 因素 分 别 量化 后 ， 组 合成 一 个 综合 指数 〈 降 维 ) 来 
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持续 追踪 的 方式 ,这 是 最 重要 的 一 个 思维 。 许 多 管理 者 面临 的 问题 是 “数据 太 多 , 可 用 的 太 少 ”， 
这 就 需要 “ 降 维 ”了 ， 即 把 多 个 指标 压缩 为 单个 指标 。 指 数 化 的 好 处 非常 明显 ,一 是 “减少 了 
指标 ， 使 得 管理 者 精力 更 为 集中 ”; 二 是 “指数 化 的 指标 往往 提高 了 数据 的 信 度 和 效 度 ”; 三 
是 “指数 能 长 期 使 用 且 便于 理解 ”。 

指数 的 设计 是 门 大 学 问 ， 这 里 简单 提 三 个 关键 点 : 一 是 要 遵循 “独立 和 穷尽 ”的 原则 ; 二 
是 要 注意 各 指标 的 单位 ， 尽 量 用 “标准 化 ”来 消除 单位 的 影响 ; 三 是 权重 和 需要 等 于 1。 独立 
穷尽 原则 ， 即 你 所 定位 的 问题 ， 在 搜集 衡量 该 问题 的 多 个 指标 时 ， 各 个 指标 间 尽 量 相互 独立 ， 
同时 能 衡量 该 问题 的 指标 尽量 穷尽 (收集 全 ) 。 举 个 例子 ,设计 某 公司 销售 部 门 的 指标 体系 时 ， 
目的 是 衡量 销售 部 的 绩效 ， 确 定 核心 指标 是 销售 额 后 ， 我 们 将 绩效 拆 分 为 订单 数 、 客 单价 、 线 
索 转 化 率 、 成 单 周期 、 续 约 率 5 个 相互 独立 的 指标 , 且 这 5 个 指标 涵盖 销售 绩效 的 各 个 方面 ( 穷 
尽 )。 我 们 设计 的 销售 绩效 综合 指数 二 0.4X 订 单数 十 0.2X 客 单价 十 0.2X 线 索 转 化 率 十 0.1X 成 
单 周期 十 0.1X 续 约 率 ， 各 指标 都 采用 max-min 方法 进行 标准 化 。 























12.3.7 ”循环 / 闭环 思维 


循环 / 闭环 的 概念 可 以 引申 到 很 多 场景 中 ， 比 如 业务 流程 的 闭环 、 用 户 生命 周期 闭环 、 产 
品 功 能 使 用 闭环 、 市 场 推广 策略 闭环 等 。 这 种 思考 方式 是 非常 必要 的 。 业 务 流程 的 闭环 是 管理 
者 比较 容易 定义 出 来 的 ， 列 出 公司 所 有 业务 环节 ,梳理 出 业务 流程 ， 然 后 定义 各 个 环节 之 间 相 
互 影响 的 指标 ， 跟 踪 这 些 指标 的 变化 ， 能 从 全 局 上 把 握 公 司 的 运行 状况 。 循 环 / 闭环 思维 图 示 
如 图 12-5 所 示 。 


图 12-5 循环 / 闭环 思维 
比如 , 一 家 软件 公司 的 典型 业务 流程 : 推广 行为 (市场 部 ) 一 流量 进入 主 站 (市场 十 产 研 ) 
一 注册 流程 ( 产 研 ) 一 试用 体验 ( 产 研 十 销售 ) 一 进入 采购 流程 (销售 部 ) 一 交易 并 部 署 〈 售 
后 十 产 研 ) 一 使 用 、 续 约 、 推 荐 (售后 十 市 场 ) 一 推广 行为 ， 一 个 闭环 下 来 ， 各 个 衔接 环节 的 
指标 就 值得 关注 了 :广告 点 击 率 一 注册 流程 进入 率 一 注册 转化 率 一 试用 率 一 销售 管道 各 环节 转 
化 率 一 付款 率 一 推荐 率 / 续 约 率 …… 这 里 涉及 漏斗 思维 ， 如 前 面 所 述 , “ 千 万 不 要 用 一 个 漏斗 
来 衡量 一 个 循环 ”。 有 了 循环 思维 ， 能 够 比较 快 地 建立 有 逻辑 关系 的 指标 体系 。 
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从 十 二 五 走 到 十 三 五 规划 期 间 ， 银 行业 面临 的 各 方面 的 压力 越 来 越 大 ， 从 四 大 行 的 年 报 数 
字 可 以 看 出 ， 它 们 的 利润 增长 基本 上 趋 近 于 零增长 。 在 这 样 的 情况 下 ， 怎 样 通过 大 数据 和 人 工 
智能 提升 传统 银行 的 竞争 力 ， 是 摆 在 他 们 面前 的 一 个 很 重要 的 课题 。 过 去 十 多 年 期 间 ， 银 行业 
务 出 现 了 一 个 重要 拐点 ， 这 个 拐点 就 是 互联 网 银行 慢 慢 取 代 柜 员 ，IT 从 支持 几 万 、 十 几 万 的 柜 
员 到 支持 面向 所 有 的 互联 网 客户 ， 无 论 是 服务 的 形态 还 是 IT 的 支撑 ， 都 发 生 了 根本 的 变化 ， 这 
是 移动 和 云 技术 在 里 面 发 挥 了 作用 。 这 几 年 ， 银 行 三 大 互联 网 渠道 已 经 建立 ; 

e 手机 银行 已 达到 1.8 亿 多 。 

e 网 上 银行 有 2 亿 多 。 

e 。 微 信 银 行 占 的 客服 服务 总 量 已 经 超过 了 传统 的 客户 服务 。 


这 意味 着 银行 的 渠道 、 场 景 化 的 实践 已 经 见 到 了 效果 ， 做 大 数据 要 具备 的 基础 已 经 存在 。 
但 是 ， 银 行 大 数据 依然 面临 着 不 少 的 挑战 

€ 如 何 处 理 数据 量 的 快速 增长 ?这 包括 每 天 的 交易 量 、 外 部 互联 网 金融 、 银行 的 三 大 互 
联网 平台 造成 用 户 的 交易 数据 和 行为 数据 有 大 幅 的 增长 。 

€ ”如 何 快速 智能 分 析 历 史 数 据 ? 四 大 行 从 2000 年 开始 建立 数据 仓库 以 来 ， 拥 有 了 庞大 
的 历史 数据 资产 ,在 新 的 环境 下 怎么 能 够 快速 地 智能 分 析 , 对 银行 提出 了 更 高 的 挑战 。 

€ ”如 何 使 用 内 外 数据 描述 客户 特征 ?在 数据 源 方面 , 除了 本 银行 数据 外 , 也 需要 采纳 外 
部 的 数据 来 配合 进行 分 析 。 很 多 银行 已 经 引入 了 征 信 数据 、 税 务 数据 等 ， 怎 么 做 到 以 
比较 全 面 的 数据 去 描绘 银行 的 客户 特征 ， 这 是 银行 的 一 个 新 的 课题 。 


所 以 , 下 一 个 拐点 是 什么 呢 ? 银行 要 从 原来 做 的 账 务 性 的 、 交易 性 的 处 理 转 向 能 够 渗透 到 
经 济 生活 的 方方面面 , 这 是 一 个 场景 化 。 如 果 抓 不 住 这 个 拐点 , 银行 就 要 被 互联 网 金融 颠覆 或 
者 管道 化 。 这 就 要 做 人 工 智 能 和 大 数据 挖掘 。 对 传统 银行 来 讲 ， 要 解决 三 大 问题 : 

@ ”怎么 样 提升 对 于 客户 的 识别 ? 

o ”怎么 样 提升 对 于 客户 的 营销 ? 

@ ”怎么 样 提升 对 于 风险 的 防范 ? 

对 于 银行 业 而 言 , 无 论 是 用 传统 的 结构 化 的 数据 , 还 是 用 现在 互联 网 形态 下 非 结构 化 的 数 
据 ， 要 解决 的 问题 都 是 这 些 。 目 前 ， 银 行业 有 了 更 丰富 的 数据 源 ， 有 了 更 好 地 进行 数据 处 理 的 
方法 ， 银 行业 就 是 要 实现 数据 挖掘 和 分 析 。 比 如 ， 建 设 银 行 已 经 成 立 了 上 海 大 数据 分 析 中 心 。 
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下 面 我 们 分 析 一 下 四 大 行 的 大 数据 和 人 工 智 能 的 进展 。 


13.1 四 大 行 的 进展 


金融 行业 在 有 些 技术 的 选择 上 还 是 相对 比较 保守 的 , 一 般 不 会 用 最 新 的 技术 , 不 会 用 最 新 
的 版 本 ,这 是 因为 银行 的 连续 服务 要 求 特别 高 。 但 是 ,在 大 数据 技术 和 人 工 智 能 上 ， 金融 行业 
是 最 先 使 用 的 一 个 行业 。 


13.1.1 ”建设 银行 

建设 银行 大 数据 平台 的 策略 是 架构 先行 , 已 经 有 很 好 的 基础 架构 。 在 基础 框架 上 ， 搭 建 了 
一 些 基础 的 大 数据 分 析 工 具 。 功 能 架构 设计 上 和 其 他 银行 差不多 ， 包 含 从 采集 、 存 储 、 分 析 、 
展现 到 应 用 。 在 数据 设计 上 有 一 个 演变 过 来 的 整体 的 结构 。 他 们 强调 大 数据 是 数据 的 一 部 分 ， 
结构 化 的 数据 是 大 数据 的 一 部 分 。 建 行 的 大 数据 平台 取得 了 不 少 的 成 果 。 


e 在 实时 的 数据 仓库 上 , 能 够 对 客户 经 理 做 实时 的 数据 提供 和 交付 , 无 论 是 在 并 发 的 访 


问 还 是 实时 服务 方面 。 


e 在 数据 的 应 用 模式 上 ， 有 6 类 数据 应 用 模式 ， 包 括 挖掘 类 、 数 据 实验 室 、 机 器 查询 、 


仪表 盘 、 固 定 报表 、 自 动 查询 等 。 


e ”建立 “模型 实验 室 ”， 能 够 发 挥 的 作用 越 来 越 大 ， 能够 基于 结构 化 和 非 结 构 化 的 数据 


支持 大 数据 模型 的 研发 ， 这 个 模型 研发 出 来 后 ， 能 够 很 快 地 把 它 部 署 到 生产 当中 。 


€ ”在 非 结 构 化 大 数据 的 应 用 方面 做 了 不 少 探索 ， 比 如 客户 行为 偏好 的 数据 、 录 音 文本 、 


地 理 数 据 的 应 用 ， 能 耗 数据 的 应 用 ， 媒 体 信息 、 员 工商 银行 为 数据 的 应 用 等 。 通 过 位 
置 服务 终端 识别 的 新 技术 、 新 数据 的 采用 ， 拒 绝 可 疑 风险 事件 ，2017 年 上 半年 避免 
了 1.9 万 起 风险 事件 ， 避 免 客 户 损失 1.4 亿 ， 这 种 数据 越 来 越 多 。 


13.1.2 ”工商 银行 





[ 商 银行 大 数据 战略 思路 是 通过 工商 银行 两 库 的 建设 来 完善 大 数据 体系 的 。 两 库 是 信息 库 


和 数据 仓库 , 数据 仓库 在 工商 银行 的 建设 和 银行 的 建设 中 都 是 比较 传统 的 , 主要 是 应 对 之 前 的 
银行 交易 数据 、 账 户 数据 ， 采 用 结构 化 的 数据 存储 来 进行 相关 的 处 理 。 从 2013 年 开始 ， 工 商 
银行 启动 了 信息 库 的 建设 , 主要 指 非 结构 的 数据 。 通 过 两 库 的 建设 , 工商 银行 还 建设 了 一 支 分 
析 师 队伍 ， 能 够 对 这 些 庞 大 的 数据 进行 相关 业务 的 加 工 处 理 和 分 析 。 





工商 银行 大 数据 的 发 展 历程 可 以 分 为 几 个 阶段 ， 从 TB 级 已 经 进入 了 PB 级 的 建设 阶段 ， 





接 下 来 在 可 预见 的 几 年 内 会 进入 EB 级 的 庞大 体 量 。 最 早 在 2000 年 初 ， 那 个 时 候 大 数据 领域 
更 多 的 还 是 应 用 在 一 些 报表 的 快速 展现 上 ， 所 以 那个 时 候 工商 银行 基于 比较 传统 的 Oracle 和 
SaaS 做 了 TH 的 动态 报表 ， 行 领导 和 管理 层 能 够 在 第 二 天 上 班 前 看 到 昨天 的 经 营 数据 。2007 
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年 , 工商 银行 基于 当时 最 先进 的 企业 级 数据 仓库 体系 架构 启动 了 企业 级 数据 体系 的 建设 , 做 了 
全 行 统一 的 管理 数据 的 大 集中 。2010 年 ， 基 于 数据 仓库 的 数据 支持 ， 工 商 银行 推出 了 MOVA 
管理 会 计 系统 ， 做 了 全 行 绩效 考核 的 管理 系统 。2013 年 ， 随 着 大 量 数据 爆发 式 的 出 现 ， 工 商 
银行 引进 了 大 数据 领域 在 业界 最 流行 的 Hadoop 技术 ， 在 Hadoop 基础 上 搭建 了 信息 库 。2014 
年 , 工商 银行 基于 大 数据 ， 自 主 研发 了 一 个 流 数 据 平 台 , 能 够 提供 实时 或 者 准 实时 的 流 数据 处 
H, 原来 的 大 数据 采用 联机 异步 批量 的 方式 , 通过 文件 存储 , 无论 是 数据 仓库 还 是 信息 库 , 在 
时 效 上 相对 来 说 都 比较 慢 。2015 年 下 半年 和 2016 年 开始 推动 分 布 式 数据 库 的 落地 工作 ， 这 会 
和 企业 级 数据 仓库 做 一 个 互补 。 这 是 大 数据 的 主要 技术 演进 。 
在 大 数据 平台 上 ， 工 商 银行 把 它 抽象 成 如 下 几 层 : 


€ 第 一 层 是 数据 采集 ,统一 针对 外 部 和 内 部 的 数据 进行 相关 的 数据 收集 , 包括 日 志 信息 、 











行为 信息 和 业务 信息 。 
@。 往 上 一 层 是 计算 层 ,不 仅 提供 了 传统 数据 仓库 的 批量 计算 能 力 , 也 通过 一 些 流 数据 的 
技术 提供 了 实时 计算 能 力 。 


e ”再 往 上 一 层 是 应 用 层 ， 抽 象 了 大 数据 相关 的 应 用 ， 包 括 用 户 可 以 自 定义 的 查询 功能 。 


通过 这 些 分 层 的 服务 ， 把 它们 抽象 到 业务 系统 中 。 通 过 管理 会 计 系统 、 分 析 师 平台 、 风 险 
系统 、 营 销 系统 ， 为 工商 银行 在 数据 的 运营 、 风 险 控制 和 营销 方面 都 提供 了 相关 的 支持 ， 这 就 
是 主要 的 大 数据 分 层 体系 。 

分 布 式 、 开 源 、 通 用 成 为 趋势 。 从 大 数据 的 起 源 开始 ， 到 目前 的 大 数据 应 用 新 形势 下 ， 数 
据 仓 库 已 经 在 做 非常 大 的 升级 换代 和 变化 。2014 年 工商 银行 从 高 成 本 封闭 的 专业 系统 (如 
Teradata) 开始 向 高 性 价 比 、 通 用 设备 和 开放 技术 的 系统 转变 。 转 型 有 两 个 原因 : 


CD 数据 量 太 大 了 。 原 来 只 需要 处 理 TB 级 的 数据 量 ， 已 经 转向 需要 处 理 PB 级 的 数据 量 ， 
甚至 以 后 将 要 处 理 EB 级 的 数据 量 。 这 么 大 的 数据 量 ,运用 传统 的 设备 没有 办 法 进行 相关 的 处 理 。 

(2) 性 价 比 。 工 商 银行 做 过 测量 ， 通 过 开放 式 的 弹性 可 扩展 的 普通 PC 服务 器 的 方式 ， 
比 传统 设备 在 成 本 上 可 以 节省 十 几 分 之 一 或 者 几 十 分 之 一 工商 银行 在 新 平台 上 一 方面 引进 了 
Hadoop 平台 ， 基 于 普通 的 PC 服务 器 进行 搭建 ， 短 短 一 两 年 的 时 间 已 经 扩展 到 几 百 个 节点 ， 
存储 空间 已 经 超过 1PB， 超 过 建设 了 十 几 、 二 十 年 的 Teradata 的 数据 容量 。 


另外 ， 工 商 银行 也 在 尽快 落地 分 布 式 数据 库 。 这 是 基于 开源 的 底层 架构 ， 基 于 普通 的 PC 
服务 器 完成 数据 仓库 体系 的 扩充 。 后 续 在 大 数据 的 处 理 加 工 方面 、 会 基于 分 布 数据 库 进 行 处 理 。 
工商 银行 会 保留 Teradata,， 着 重 于 高 端的 分 析 师 分 析 挖 掘 的 探索 性 的 工作 方面 。 后续 的 大 数据 
体系 会 采用 多 种 技术 路 线 、 多 种 技术 平台 共存 的 方式 。 
工商 银行 在 大 数据 和 人 工 智能 应 用 方面 主要 侧重 于 风险 防 控 。 这 是 落地 最 快 、 最 有 成 效 的 
应 用 。 工 商 银行 通过 大 数据 在 事前 、 事 中 、 事 后 三 个 环节 的 运用 进行 风险 的 柔性 控制 。 

@ 事前 , 比如 银行 卡 的 授信 过 程 中 ,或 者 信贷 要 进行 发 放 做 尽职 调查 中 ， 数据 能 给 它 一 

个 支撑 。 
e SP, 比如 银行 卡 最 近 比 较 多 地 发 生 盗 刷 行为 , 我 们 可 以 在 事 中 通过 大 数据 的 方式 发 
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现 银行 卡 的 盗 刷 行为 。 
e FE, 可 以 根据 事后 的 交易 或 者 发 生 的 事件 进行 相关 的 分 析 , 分 析 后 续 在 业务 的 拓展 
或 者 风险 控制 方面 有 哪些 需要 进一步 改进 或 者 补救 的 工作 。 


下 面 是 几 个 常见 的 大 数据 和 人 工 智能 案例 。 


e ”交易 反 欺 诈 , 需 要 利用 大 数据 流 数 据 的 技术 ,用 户 在 交易 的 过 程 中 采用 主机 旁 路 技术 ， 
交易 没有 完成 之 前 ， 通 过 大 数据 在 内 存 中 进行 一 次 判断 。 

@ 大 数据 怎么 运用 模型 ,通过 比较 好 的 用 户 特征 的 总 结 和 模型 进行 监控 ,通过 标签 信息 ， 
比如 定义 了 两 个 标签 , 一 个 是 用 户 开户 的 地 区 比较 广泛 , 另 一 个 是 持 有 比较 多 的 借 记 
卡 ， 就 可 以 认为 他 有 倒卖 银行 卡 的 嫌疑 ， 通 过 大 数据 的 计算 可 以 把 这 些 人 员 抓 出 来 
进行 后 续 的 业务 处 理 和 防 控 。 这 也 是 大 数据 和 人 工 智 能 应 用 得 比较 好 的 方面 。 

e ”现在 各 个 银行 业 碰 到 的 比较 大 的 困境 是 信贷 资产 的 质量 问题 ,工商 银行 持续 在 推动 运 
用 大 数据 和 人 工 智 能 防 控 信 贷 风 险 , 成 立 了 信贷 防 挖 中心, 运用 大 数据 和 人 工 智 能 技 
术 进 行 相关 的 防 控 。 

















13.1.3 ”农业 银行 


做 数据 仓库 的 时 候 ， 四 大 行 的 选择 面 都 很 窗 ， 除 了 农业 银行 没 用 TD 外 ， 其 他 银行 都 是 用 
TD 做 的 数据 仓库 。 农 业 银行 使 用 了 南大 通用 的 MPP 架构 数据 库 。Hadoop 方面 ， 目 前 使 用 的 
是 CDH 开源 版 ， 大 概 有 100 个 左右 的 Datanode， 容 量 是 SPB 左右 。 数 据 模型 方面 ， 农 业 银行 
融合 了 范式 和 维度 的 思路 。 在 主 库 核心 层面 基本 是 用 范式 建 模 减 少 重复 。 维 度 方面 以 业务 驱动 
的 方式 建立 维度 模型 为 主 。 

农业 银行 生产 系统 有 60 多 个 上 游 系统 ， 通 过 一 个 交换 平台 为 大 数据 服务 ， 负 责 上 游 生 产 
和 下 游 数据 消 费 系统 总 分 行 之 间 、 总 行 各 应 用 系统 间 的 数据 交互 。 几 乎 全 行 所 有 的 生产 系统 的 
数据 已 经 全 部 进来 了 。 大 数据 平台 是 基于 Hadoop 的 。 上 游 来 的 全 量 数 据 在 平台 上 做 了 归 类 。 
农业 银行 在 Hadoop 上 封装 了 应 用 ， 为 全 行 的 数据 挖掘 提供 服务 支撑 。 


13.1.4 ”中 国 银行 
银行 的 大 数据 战略 如 下 : 


以 平台 为 支撑 构建 大 数据 的 技术 体系 。 
以 数据 为 基础 充分 整合 数据 资源 。 
以 应 用 为 驱动 深入 挖掘 数据 价值 。 
以 人 才 为 核心 提升 数据 分 析 能 力 。 

在 实施 方面 ， 中 国 银行 采用 分 行 试点 的 模式 ， 采 取 快 速 欠 代 、 迅 速 试 错 的 方式 。 中 银 开 放 
平台 是 中 国 银行 大 数据 实施 的 例子 之 一 ，2014 年 获得 IDC 金融 的 大 奖 ，2015 年 获得 人 民 银 行 
嘉奖 , 亚洲 金融 家 组 织 把 它 评 为 最 佳 的 金融 云 服务 产品 。 这 个 产品 的 主要 设计 思路 是 把 整个 中 
国 银行 的 大 数据 进行 归并 整理 之 后 ,开发 了 1000 多 个 标准 的 API 接口 ， 这 些 API 接口 可 以 用 

















e oe oo = 
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于 分 行 ， 甚 至 是 客户 。 他 们 可 以 通过 这 些 API 访问 和 使 用 中 国 银行 的 数据 ， 用 于 加 工 得 到 自 
己 想 要 的 相关 结果 。 目 前 ， 已 经 有 很 多 分 行 利用 这 样 的 平台 开发 出 了 很 多 比较 受 欢迎 的 产品 。 

中 国 银行 曾经 表示 , 非常 希望 在 合 规 的 前 提 下 充分 利用 银行 外 部 的 数据 服务 。 因 为 银行 或 
者 金融 企业 的 数据 在 深度 上 不 是 一 般 的 互联 网 企业 能 够 比拟 的 ,如 果 金 融 行业 跟 其 他 的 相关 企 
业 进 行 有 效 的 数据 交换 , 大 家 彼此 利用 对 方 的 优势 , 就 能 够 使 这 个 银行 的 数据 得 到 更 完美 的 使 
用 。 中 国 银行 以 应 用 为 驱动 , 深入 挖掘 数据 价值 , 做 大 数据 和 人 工 智能 应 用 的 场景 产品 。 比如， 
中 国 银行 推出 了 口碑 贷 、 中 银 沃 金融 的 服务 。 中 银 精准 地 建设 客户 的 营销 平台 , 把 线 下 的 客户 
信息 和 线 上 的 客户 行为 统一 在 一 起 ， 把 结构 化 的 数据 和 非 结 构 化 的 数据 有 机 地 提炼 并 且 整 合 ， 
争取 能 够 精确 地 描述 客户 的 各 项 属性 特征 。 














13.2 其 他 银行 


坐 拥 海量 信息 , 银行 仍 患 “数据 贫血 症 ”， 这 是 原 工商 银行 董事 长 姜 建 清 的 深度 解读 。“ 一 
些 银 行 坐 拥 海量 信息 ， 但 由 于 数据 割裂、 缺乏 挖 所 和 融会 贯通 ,而 患 上 数据 “贫血 症 ””,， 姜 
建 清 表 示 。 姜 建 清 提 出 ， 实 现 银行 信息 的 “融会 贯通 ”要 把 握 8 个 字 : 集中 、 整 合 、 共 享 、 挖 气 。 
e ZERP: 作业 模式 工厂 化 、 规模 化 、 标 准 化 ， 业 务 集中 处 理 、 前 中 后 台 有 效 分 离 及 
各 类 风险 集中 监控 。 目 的 是 提高 质量 和 效率 ， 降 低 成 本 ， 控 制 风 险 。 
© 系统 整合 : 建立 IT 中 枢 和 架构 统一 化 ， 系 统 互联 互通 高 效 化 ， 破 除数 据 信息 孤身 。 
目的 是 使 经 营 管理 灵活 协调 ， 市 场 客户 响应 快速 及 时 . 
e ”信息 共享 形成 便于 检索 的 数据 共享 平台 。 目 的 是 提高 信息 的 可 用 性 、 易 用 性 。 
@。” 孝 据 挖 氢 ， 通 过 对 数据 收集 、 存 储 、 处 理 、 分 析 和 利用 ， 使 用 先进 的 数据 控 氢 技术 ， 
使 海量 数据 价值 化 。 目 的 是 据 此 判断 市 场 、 发 现价 格 、 评 估 风 险 、 配 置 资源 ， 提 供 经 
营 决策 、 产 品 创新 、 精 准 营销 的 支持 。 
“信息 化 银行 建设 的 成 功 实施 会 使 银行 间 出 现 竞 争 力 的 “ 代 际 ， 差异 ， 赢 者 会 持续 保持 战 
咯 优势 ”， 姜 建 清 称 。 
除了 四 大 行 外 ， 下 面 看 看 其 他 银行 在 大 数据 和 人 工 智能 上 的 布局 。 


13.2.1 广发 银行 

广发 银行 将 大 数据 工程 定位 为 “智慧 工程 ”， 目 标 是 打造 广发 银行 的 “大 脑 ”， 动 态 感 知 
市 场 需求 、 经 营 状 况 、 客 户 体验 ， 实 现 快速 决策 、 快 速 创新 ， 推 动 以 客户 为 中 心 的 零售 银行 与 
交易 银行 战略 转型 。 大 数据 工程 同时 也 是 广发 银行 的 “人 才 工 程 ”, 广发 银行 计划 用 3 年 左右 
的 时 间 培 养 打 造 一 支 100 人 的 大 数据 专业 人 才 队 伍 。2013 年 ， 广 发 银行 制定 了 大 数据 5 年 规 
划 ， 分 三 个 阶段 实施 。 


© 第 一 阶段 (2013、2014 年 ) : 大 数据 技术 平台 建设 与 应 用 试点 。 
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e 第 二 阶段 (2015、2016 年 ) : 大 数据 生态 系统 建设 与 重点 业务 领域 应 用 突破 。 
e 第 三 阶段 (2017、2018 年 ) : 大 数据 智能 分 析 与 业务 全 面 推广 应 用 。 


目前 已 完成 平台 建设 、 应 用 试点 、 大 数据 生态 系统 建设 和 信用 卡 业务 领域 应 用 ， 即 按 分 析 
与 应 用 分 离 、 读 写 分 离 的 原则 建设 4 个 数据 域 。 正 在 建设 8 个 数据 产品 : 客户 全 景 视图 、 洪 在 
客户 视图 、 资 金 关 系 圈 、 自 助 分 析 平台 、 历 史 数 据 查询 平台 、 实 时 营销 平台 、 实 时 风 控 平台 和 
客户 信用 评级 。 基 于 数据 产品 的 多 个 业务 应 用 正在 试点 或 推广 , 并 与 多 个 外 部 伙伴 开展 了 大 数 
据 合作 。 


13.2.2 ”江苏 银行 


江苏 银行 大 数据 平台 建设 起 步 于 2014 年 底 ，2015 年 年 中 初 见 成 效 。 目 前 ， 江 苏 银行 利用 
大 数据 技术 开发 了 一 系列 具有 一 定 社会 影响 的 大 数据 和 人 工 智能 应 用 产品 ， 如 “e 融 ”品牌 下 
的 “ 税 e 融 ”“ 享 e 融 ”等 线 上 贷款 产品 、 基 于 内 外 部 数据 整合 建 模 的 对 公 资 信服 务 报告 、 以 
实时 风险 预警 为 导向 的 在 线 交 易 反 欺诈 应 用 、 基 于 柜员 交易 画面 等 半 结 构 化 数据 的 柜 面 交 易 行 

大 数据 和 人 工 智能 应 用 的 本 质 是 对 客户 需求 的 认识 和 释放 ,应 用 效果 取决 于 银行 的 综合 运 
营 服务 意识 ,而 选择 一 个 合适 的 技术 平台 也 是 大 数据 成 功 应 用 的 不 可 或 缺 的 因素 之 一 。 江 苏 银 
行 在 大 数据 技术 平台 建设 方面 进行 了 大 量 探索 和 思考 。 

1. 为 什么 要 建设 大 数据 技术 平台 

江苏 银行 资产 规模 是 数 万 亿 元 , 积累 了 大 量 的 内 部 数据 , 以 往 受 限于 高 性 能 存储 的 成 本 和 
数据 并 行 化 处 理 能 力 ， 占 总 存储 量 80% 以 上 的 数据 是 “ 死 ”在 系统 里 的 。 以 对 私 客户 的 活期 
账户 为 例 , 一 张 拉链 表 的 数据 量 就 达 数 百 GB, 运行 在 IBM P 系列 小 型 机 上 的 Oracle 数据 库 统 
计 一 下 表 的 行 数 就 要 3 个 小 时 , 若 需 要 全 量 回 算 历史 数据 , 为 避免 影响 生产 , 需要 将 数据 导出 
到 另外 的 数据 库 上 ， 花 费 几 天 时 间 。 又 如 , “柜员 操作 记录 ”这 样 的 半 结 构 化 数据 每 天 产生 的 
数据 量 达 几 个 GB， 生 产 环境 只 能 保留 最 近 几 天 的 数据 ， 其 他 数据 存储 在 磁带 库 上 ， 使 用 时 需 
花费 大 量 的 人 力 将 数据 从 磁带 库 中 导出 。 

另 一 方面 , 为 减少 贷 前 审查 的 录入 成 本 , 开发 纯 线 上 贷款 产品 等 , 江苏 银行 陆续 引入 了 税 
务 、 法 院 、 工 商 、 黑 名 单 等 外 部 数据 。 随 着 内 外 部 数据 量 的 快速 增长 ， 大 规模 数据 处 理 和 实时 
响应 的 需求 使 得 传统 的 数据 处 理 平台 遭遇 瓶颈 , 江苏 银行 急需 探索 新 的 数据 架构 , 采用 新 的 数 
据 处 理 技术 。 

当前 , 银行 业 面 临 的 挑战 主要 来 自 两 个 方面 : 利率 市 场 化 和 互联 网 金融 。 利 率 市 场 化 拉 近 
了 传统 银行 与 实体 经 济 的 横向 联系 , 要 求 银行 快速 提升 数据 洞察 能 力 ; 互联 网 金融 使 得 银行 的 
数据 应 用 不 能 局 限于 传统 的 查询 统计 分 析 应 用 , 还 需 提 供 高 效 精准 的 营销 , 并 具备 实时 风险 防 
控 能 力 。 相 较 于 大 型 商业 银行 , 城 商行 的 竞争 更 加 激烈 ,传统 的 数据 产品 和 应 用 服务 已 无 法 满 
足 新 形势 下 城 商行 应 对 市 场 竞争 的 需要 。 
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2. 大 数据 技术 平台 架构 分 析 

经 过 对 主要 大 数据 处 理 平台 的 深入 研究 ， 江 苏 银 行将 关注 点 聚焦 在 选择 MPP 还 是 
Hadoop。 为 此 ， 江 苏 银行 更 进一步 从 数据 容量 和 数据 处 理 能 力 的 线性 关系 分 析 传统 数据 平台 、 
MPP 和 Hadoop 的 关系 ， 如 图 13-1 所 示 。 








Linear scalability 
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13-1 混合 架构 


传统 观点 认为 ，MPP 的 适用 范围 为 1TB~100TB 的 数据 量 ， 数 据 量 超过 100TB，Hadoop 
更 具 优势 。 当 前 ， 大 中 型 城 商行 的 数据 量 普遍 在 10TB 级 别 ， 因 此 一 些 城 商行 选择 MPP 作为 
大 数据 处 理 平台 。 然 而 ， 近 年 来 随 着 Hadoop 开源 社区 的 不 断 发 展 ， 特 别 是 Spark 的 发 布 让 
Hadoop 焕发 了 新 的 活力 。Spark 具有 RDD (Resilient Distributed Datasets， 弹 性 分 布 式 数据 集 ) 
All DAG (Directed Acyclic Graph, 有 向 无 环 图 ) 两 项 核心 技术 , 基于 内 存 计算 优化 了 任务 流程 ， 
具有 更 低 的 框架 开销 , 使 得 Hadoop 在 MPP 擅长 的 100TB 以 下 数据 量 的 处 理性 能 也 大 为 改善 。 
以 目前 的 Hadoop 技术 , 100GB 以 上 的 数据 量 处 理性 能 不 弱 于 传统 关系 型 数据 库 和 MPP, 10TB 
以 上 的 数据 量 性 能 优势 更 为 明显 。 因 此 ， 如 图 13-1 所 示 的 混合 架构 的 大 数据 处 理 平 台 模式 逐 
渐 淡 出 ， 形 成 了 如 图 13-2 所 示 的 新 型 应 用 模式 。 


SAAS SARS 





10068 178 1078 10078 
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图 13-2 Hadoop 架构 


江苏 银行 从 经 济 成 本 和 未 来 数据 的 非 线性 增长 趋势 的 角度 分 析 认 为 , 传统 的 交易 系统 运用 
关系 型 数据 库 处 理 OLTP 事务 操作 ,产生 的 交易 数据 通过 异 构 数据 的 批量 复制 方式 或 消息 队列 
的 准 实时 方式 更 新 至 Hadoop 平台 ，Hadoop 平台 进行 大 体 量 数据 的 分 析 和 挖掘 ， 并 提供 基于 
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大 数据 的 应 用 系统 实时 检索 的 模式 , 与 城市 商业 银行 目前 的 数据 架构 相 适 应 , 决定 选择 Hadoop 
平台 。 


在 对 产品 化 的 发 布 版 Hadoop 平台 选 型 的 过 程 中 , 江苏 银行 总 结 了 以 下 需 重点 考量 的 内 容 。 
e 性 价 比 和 扩展 性 


前 期 ， 江 苏 银 行 在 IOE 传统 架构 上 进行 了 大 量 投入 ， 而 城 商行 总 体 自主 可 控 能 力 较 弱 、 
资产 规模 较 小 、 鼻 利 能 力 较 低 。 因 此 ， 不 论 是 从 自主 可 控 要 求 的 目标 出 发 ， 还 是 从 降低 软 硬 件 
成 本 投入 的 角度 出 发 ,都 要 求 大 数据 产品 需 支 持 在 x86 虚拟 化 集群 搭建 开放 和 高 度 并 行 化 的 处 
理 平台 , 既 要 适应 高 并 发 低 时 延 的 移动 互联 网 实时 数据 检索 需求 , 又 要 满足 大 体 量 数 据 的 统计 
分 析 与 业务 建 模 要 求 , 要 求 总 体 技术 方案 具备 高 性 价 比 , 能 够 实现 在 同一 服务 器 集群 上 针对 不 
同 应 用 动态 灵活 分 配 内 存 、CPU 等 硬件 资源 并 支持 动态 扩展 ， 在 出 现 资源 瓶颈 时 能 够 快速 解 
决 。Hadoop 产品 具有 支持 x86 和 可 动态 扩展 的 性 能 ， 但 目前 大 多 数 Hadoop 平台 在 不 同 应 用 
间 的 资源 有 效 隔离 方面 都 存在 一 定 缺 陷 。 


© 对 SQL 的 兼容 性 


开源 Hadoop 对 标准 SQL 及 PL/SQL 支持 程度 不 高 , 许多 常用 函数 都 不 支持 , 需要 使 用 者 
编写 程序 实现 。 而 银行 以 往 的 数据 集 市、 数据 仓库 等 应 用 大 多 基于 SQL 开发 ， 根 据 江苏 银行 
的 数据 架构 规划 ， 数 据 集 市 、 数 据 仓库 将 迁移 至 Hadoop 平台 ， 为 避免 少 则 几 百 行 多 则 上 万 行 
的 程序 编写 ，SQL 兼容 性 成 为 Hadoop 平台 选择 不 可 或 缺 的 考虑 因素 之 一 。 


@ ”对 于 通用 开发 框架 和 工具 的 支持 程度 


江苏 银行 应 用 系统 采用 数据 库 + 中 间 件 + 应 用 的 三 层 模 式 ， 开 发 环境 为 Java Hibemate 和 
Spring 框架 。 为 此 要 求 Hadoop 平台 下 的 HDFS 库 、HBase 以 及 内 存 数据 库 等 组 件 能 够 通过 
ODBC 或 JDBC 连接 ， 以 实现 数据 库 对 应 用 开发 人 员 透 明 ， 并 支持 诸如 BI、ETL、 数 据 挖掘 
等 工具 ， 数 据 源 可 以 根据 实际 需要 选择 配置 Oracle 或 Hadoop。 

e ”具备 事务 的 基本 特性 

大 数据 平台 不 仅 是 关系 型 数据 库 数据 转 存 储 和 统计 分 析 的 工具 , 更 是 一 些 新 型 应 用 , 如 客 
户 线 上 行为 等 的 原始 数据 库 。 为 了 确保 数据 的 准确 性 ， 数 据 操作 必须 具备 事务 的 基本 特性 : 原 
子 性 、 一 致 性 、 隔 离 性 和 持久 性 。Hadoop 分 布 式 计算 的 特点 决定 其 本 身 不 具备 事务 的 基本 特 
性 ， 必 须 借 助 插 件 实现 。 

e 图 分 析 与 流 处 理 能 力 

银行 的 实时 营销 和 实时 风险 预警 场景 需要 大 数据 平台 具有 历史 数据 快速 统计 、 窗 口 时 间 内 


的 信息 流 和 触发 事件 及 模型 匹配 、 百 毫秒 级 事件 响应 等 性 能 , 流 处 理 技术 是 关键 .目前 , Hadoop 
平台 通用 的 流 处 理 引 擎 主要 为 Spark Streaming 和 Storm, 两 者 各 有 千秋 ，Spark Streaming 由 时 
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间 窗 口内 的 批量 事件 流 触发 ，Storm 由 单个 事件 触发 ， 单 笔 交 易 延 迟 方面 ，Spark Streaming 高 
于 Storm， 但 在 整体 吞吐 量 方面 ，Spark Streaming 略 有 提升 。 在 进行 Hadoop 产品 选 型 时 ， 江 
苏 银行 主要 考量 了 经 过 优化 的 流 处 理 引擎 是 否 能 够 在 流 上 实现 统计 类 挖掘 算法 。 

e ”数据 存储 形式 的 多 样 性 


HER Hadoop 产品 至 少 支持 3 种 数据 存储 形式 : 一 是 行 式 存储 ， 用 于 数据 由 传统 数据 库 向 
Hadoop 数据 库 过 渡 ; 二 是 基于 键 值 对 的 存储 ， 用 于 大 体 量 、 高 并 发 数据 的 实时 查询 ; 三 是 内 
存 式 数据 库 ， 用 于 交互 式 数据 分 析 和 挖掘 ， 可 通过 构建 分 布 式 Cube 加 速 性 能 ， 也 可 部 分 使 用 
SSD 代替 ， 程 序 自动 选择 存储 层 。 


e 多 用 户 多 数据 库 的 隔离 


商业 银行 对 数据 安全 非常 重视 ， 要 求 不 同 来 源 的 数据 在 Hadoop 平台 上 分 库存 放 ， 并 且 为 
不 同 用 户 针对 库 、 表 、 行 的 访问 分 配 不 同 的 权限 。 开 源 Hadoop 平台 不 具有 用 户 权限 概念 ， 许 
多 使 用 者 在 Hadoop 平台 只 建 一 个 库 ， 所 有 应 用 使 用 同一 个 用 户 名 访问 资源 ， 数 据 资源 完全 开 
放 。 这 种 方式 存在 严重 的 安全 隐患 ， 预 计 随 着 平台 重要 性 的 提升 ， 拆 分 数据 库 、 细 分 用 户 权限 
的 需求 也 将 越 来 越 迫切 ， 为 避免 因 前 期 规划 不 合理 导致 后 期 巨大 的 拆 分 工作 量 , 江苏 银行 在 大 
数据 平台 选 型 之 初 就 将 多 用 户 多 数据 库 的 隔离 作为 重点 考量 的 因素 。 


e 平台 的 研发 能 力 和 开放 性 


Hadoop 作为 创新 型 技术 ， 与 传统 数据 库 相 比 ， 技 术 成 熟 度 不 够 。 江 苏 银 行 选 择 使 用 产品 
化 的 Hadoop， 目 的 在 于 借助 专业 技术 厂商 的 强大 自主 研发 和 服务 支持 能 力 ， 快 速 修 复 技术 缺 
陷 ， 在 充分 理解 银行 数据 应 用 复杂 需求 的 基础 上 ， 充 分 发 挥 产 品 特性 ， 支 持 银行 业务 创新 。 


€ 不同 数 据 规模 和 应 用 场景 下 的 性 能 表现 
银行 业 的 应 用 场景 及 需求 较 其 他 行业 更 为 复杂 ， 一 些 典 型 的 应 用 场景 和 主要 技术 如 下 : 


© 用 户 行为 采集 分 析 : 数据 探头 JS, SDK, Nginx, ICE) 、 数 据 分 发 (Kafka) 、 离 线 
数据 存储 及 处 理 (HBase) 、 运 营 分 析 结 果 展 现 (MySQL) 。 

© 跨 部 门 数据 整合 : 数据 桥接 (Sqoop) 、 日 志 接 入 (Flume) 、 数 据 分 发 (FTP) 、 离 
线 数据 存储 及 处 理 (HBase, ES) 。 

@ 离线 用 户 画像 和 用 户 洞察 〈 支 持 营销 ) : 离线 数据 存储 及 处 理 (HBase、ES) 。 

@ 实时 用 户 画 像 及 推荐 : 实时 数据 处 理 (Storm、Spark)、 数 据 存储 (Redis、MongoDB) 。 

© 实时 反 欺诈 ， 数据 接口 (API) 、 数 据 分 发 (MQ) 、 实 时 数据 处 理 (Storm) 。 


此 外 ， 风 险 管理 领域 的 应 用 场景 包括 实时 反 欺诈 、 反 洗钱 ， 实 时 风险 识别 、 在 线 授信 ， 等 
等 ; 渠道 领域 的 场景 包括 全 渠道 实时 监测 、 资 源 动态 优化 配置 等 ; 用 户 管理 和 服务 领域 的 场景 
包括 在 线 和 柜 面 服务 优化 、 客 户 流失 预警 及 挽留 、 个 性 化 推荐 、 个 性 化 定价 等 ; 营销 领域 的 场 
景 包 括 〈 基 于 互联 网 用 户 行为 的 ) 事件 式 营销 、 差 异化 广告 投放 与 推广 等 。 
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e 并行 数据 挖 所 能 力 与 及 语言 支持 


目前 ， 江 苏 银 行 已 经 采购 SAS 数据 挖掘 工具 ， 在 风险 管控 、 市 场 营 销 、 产 品 定价 等 领域 
开展 了 一 系列 的 模型 开发 和 策略 设计 等 业务 应 用 ， 随 着 Hadoop 大 数据 平台 的 引入 ， 江 苏 银行 
开始 积极 探索 基于 并 行 数据 处 理 技术 下 的 及 语言 运用 , R 语言 可 以 直接 访问 Hadoop 数据 ,为 
全 表 、 全 字段 立体 式 的 数据 挖掘 提供 了 坚实 的 技术 保障 。 利 用 R 语言 的 机 器 学 习 算法 ， 如 深 
度 学习 算 法 ， 可 以 快速 从 风险 、 市 场 营 销 、 差 别 化 服务 等 角度 对 客户 进行 细 分 。Hadoop 平台 
通常 只 支持 单机 版 R, 在 选 型 时 , 江苏 银行 重点 考虑 了 RR 算法 的 支持 度 问 题 , 要 求 所 选 Hadoop 
平台 对 及 算法 的 支持 超过 70 种 以 上 。 


© 非 结 构 化 数据 处 理 能 力 


当前 , 国内 各 银行 已 建 有 数据 仓库 或 数据 集 市 平台 , 大 数据 平台 的 引入 往往 独立 于 数据 仓 
库 ， 对 于 某 些 场景 ， 将 结构 化 数据 与 非 结构 化 数据 整体 应 用 具有 更 好 的 分 析 效 果 。 大 数据 平台 
和 传统 数据 仓库 应 如 何 有 效 整合 ? 

首先 需 明确 “结构 化 ”和 “ 非 结构 化 ”数据 概念 。 狭 义 地 理解 ,结构 化 数据 指 关 系 型 数据 ， 
其 余 都 是 非 结构 化 数据 。 广 义 地 理解 ,结构 化 数据 是 相对 于 某 一 个 程序 来 讲 的 ， 如 视频 对 于 播 
放 器 来 说 显然 是 结构 化 的 ， 但 是 对 于 文本 编辑 器 来 说 就 是 非 结构 化 的 。 

基于 上 述 理解 ， 江 苏 银行 认为 无 论 是 语音 、 影 像 还 是 其 他 “狭义 ”的 非 结构 化 数据 ， 只 
要 和 银行 的 经 营 管理 、 业 务 发 展 有 关 ， 就 可 以 作为 大 数据 应 用 的 一 个 数据 源 ， 技 术 上 借助 特定 
工具 对 其 进行 处 理 即 可 使 用 。 通 常 HTML 网 页 被 认为 是 非 结构 化 数据 ， 因 为 难以 从 中 提取 结 
构 化 字段 ， 如 电 商 网 页 上 的 商品 名 称 、 产 品 价格 等 ， 但 借助 网 页 抓 取 工具 ， 可 将 上 述 页 面 信息 
转化 为 结构 化 字段 ， 后 续 按 照 结构 化 数据 处 理 即 可 。 语 音 、 影 像 也 是 一 样 ， 关 键 是 我 们 期 望 从 
中 提取 什么 信息 ， 用 什么 工具 提取 ， 一 旦 提取 成 功 ， 即 可 整合 到 大 数据 应 用 中 。 在 实践 中 , TE 
苏 银行 大 数据 平台 已 实现 网 页 、 文 本 、JSON、XML 等 非 结构 化 数据 整合 以 及 部 分 图 像 和 语音 
数据 的 整合 ， 并 应 用 到 了 业务 分 析 中 。 





1 本 .了 人 金融 宏观 大 数据 分 析 


随 着 金融 市 场 的 创新 和 发 展 , 金融 风险 变 得 越 来 越 复杂 , 需要 更 多 的 数据 支撑 和 复杂 的 数 
学 模型 来 量化 描述 ， 大 数据 和 人 工 智能 技术 将 成 为 未 来 金融 风险 管理 的 利器 。 

目前 , 业内 的 银行 大 数据 强调 在 微观 层面 的 应 用 , 例如 评价 消费 者 的 信用 风险 、 支 持 投 资 
决策 、 识 别 金 融 主体 的 身份 等 。 随 着 大 数据 分 析 和 挖掘 技术 的 不 断 提高 , 微观 的 银行 大 数据 可 
以 经 过 整合 、 匹 配 和 建 模 来 支持 宏观 的 金融 监管 和 决策 。 传 统 的 金融 监管 和 决策 以 定性 为 主 ， 
辅助 以 简化 的 量化 指标 , 对 实际 情况 缺乏 充分 的 把 握 , 而 大 数据 技术 可 以 充分 利用 底层 的 细 粒 
度 的 微观 数据 ， 整 合 分 散 的 信息 ,融合 不 同 维度 的 信息 ， 带 来 具有 及 时 性 、 前 瞻 性 和 更 为 准确 
的 决策 支持 , 提高 监管 水 平和 决策 能 力 。 本 节 将 以 金融 系统 性 风险 管理 、 银 行 存款 保险 费 率 的 
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计算 .对 欺诈 交易 的 检测 和 经 济 结构 变化 4 个 方面 为 例 介绍 银行 大 数据 在 宏观 金融 决策 和 监管 
中 的 应 用 。 


1. 金融 关联 的 系统 性 风险 管理 


金融 危机 之 后 ， 全 球 金融 市 场 的 关联 性 远 胜 于 过 去 。 市 场 的 互动 性 一 旦 大 大 加 强 ， 就 会 导 
致 流动 性 风险 和 系统 性 风险 ,造成 市 场 恺 慌 。 国 内 的 信贷 担保 圈 (多 家 企业 通过 互相 担保 或 联 
合 担保 而 产生 的 特殊 利益 群体 ) 就 是 金融 关联 的 典型 代表 。 由 于 信贷 市 场 的 发 展 , 关联 的 企业 
越 来 越 多 ， 互 相形 成 担保 圈 ， 甚 至 形成 一 张 巨 大 的 网 。 在 经 济 平稳 增长 期 ， 担保 圈 会 降低 中 小 
企业 融资 的 难度 , 推动 民营 经 济 的 发 展 .然而 , 一 旦 经 济 下 行 , 担保 圈 就 会 显露 其 负面 影响 
加 剧 信贷 风险 。 如 若 处 理 不 当 ， 极 易 引 发 系统 性 金融 风险 。 过 去 几 年 ， 在 南方 企业 担保 流行 的 
省 份 ， 往 往 一 家 企业 出 现 信贷 不 良 ， 一 群 企业 遭 瑞 ， 一 个 行业 陷入 泥潭 ， 整 个 地 区 面临 系统 性 
风险 ， 一 些 本 来 毫 不 相干 、 资 金 链 正常 、 经 营 良 好 的 企业 也 由 于 担保 关联 ， 跌 入 破产 的 深渊 。 
信贷 市 场 担保 团 问 题 一 度 愈演愈烈 ,传统 的 担保 圈 分 析 方 法 对 理解 处理 担 保 圈 问 题 作 用 有 限 。 
企业 之 间 担 保 贷款 本 来 是 一 种 中 性 的 信用 增进 方式 , 恰当 地 使 用 会 产生 风险 释 缓 作用 , 由 于 担 
保 圈 风险 迭出 , 银行 和 监管 部 门 把 问题 归结 到 担保 贷款 本 身 , 目前 各 家 银行 采取 了 比较 严格 的 
恨 制 条 款 来 避免 担保 贷款 的 发 生 。 
任何 信贷 产品 都 存在 风险 , 金融 机 构 本 身 就 是 经 营 风险 的 专业 机 构 。 从 专业 角度 来 说 , 担 
保 圈 风 险 发 生 的 根本 原因 是 缺乏 合适 的 风险 管理 工具 , 没有 对 担保 圈 进 行 正确 的 风险 管理 。 目 
前 对 于 担保 圈 的 量化 风险 分 析 存 在 以 下 问题 。 

首先 , 缺乏 担保 圈 全 量 的 大 数据 , 没有 足够 的 信息 支撑 。 各 家 银行 和 当地 的 监管 机 构 只 有 
局 部 的 企业 担保 关联 数据 , 构 不 成 完整 的 担保 圈 视 图 ， 风 险 信 息 有 缺漏 。 无 法 了 解 整个 担保 圈 
相关 企业 的 详细 信息 ， 因 此 处 理 具有 系统 性 风险 特点 的 担保 圈 风 险 具 有 很 大 的 局 限 性 。 

其 次 , 无 法 对 担保 圈 风 险 进行 建 模 , 对 风险 进行 正确 的 量化 描述 。 传 统 的 风险 分 析 工 具 都 
是 对 单个 企业 进行 风险 建 模 ,适合 对 企业 的 贷款 金额 、 贷 款 质 量 以 及 信贷 行为 建 模 , 对 于 企业 
之 间 的 关联 关系 无 法 进行 量化 描述 和 风险 分 析 。 

因此 , 我 国有 必要 借助 大 数据 的 复杂 系统 分 析 方 法 ， 启 动 对 担保 圈 的 深入 分 析 ， 为 化 解 因 
担保 圈 引 发 的 金融 风险 创造 条 件 。 要 考虑 的 条 件 有 : 一 是 央行 征 信 系统 已 收集 了 大 量 丰 富 的 企 
业 担 保 关 系数 据 , 中 国人 民 银 行 征 信 中 心 为 数 千 万 企业 建立 了 信用 档案 , 有 信贷 记录 的 企业 超 
过 600 万 家 ,关联 关系 信息 ( 仅 限于 有 贷款 卡 的 用 户 ) 超过 2 亿 条 ; 二 是 复杂 网 络 技术 已 日 趋 
PPA, 复杂 网 络 是 由 数量 巨大 的 节点 (研究 对 象 ) 和 节点 之 间 错 综 复杂 的 关系 (对象 之 间 的 关 
AO 共同 构成 的 网 络 结构 , 复杂 网 络 分 析 技 术 针 对 越 来 越 多 、 越 来 越 复杂 的 事物 之 间 的 关联 关 
系 进行 非 线 性 建 模 ， 可 以 较 好 地 解决 大 数据 的 数据 量 (Volume) 、 数 据 复杂 程度 (Variety) 
和 处 理 速率 (Velocity) 等 基本 问题 。 


2. 银行 存款 保险 费 率 的 计算 


作为 金融 市 场 化 进一步 深入 的 重大 举措 , 银行 存款 保险 制度 已 经 实施 , 这 不 仅 有 利于 稳定 
宏观 金融 , 也 对 利率 市 场 化 后 商业 银行 的 稳健 经 营 和 有 序 竞争 有 利 。 存款 保 险 费 率 的 厘定 是 存 
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款 保险 制度 的 一 个 核心 ,而 保费 的 估算 是 设计 存款 保险 方案 的 难题 之 一 。 保 费 结构 的 设计 在 很 
大 程度 上 决定 了 存款 保险 对 于 参 保 银行 的 可 接受 度 。 想 降低 道德 风险 并 减少 逆向 选择 , 取决 于 
合理 的 保费 结构 国内 对 于 银行 存款 保险 的 研究 以 定性 为 主 , 对 保险 费 率 计算 的 量化 分 析 比 较 
欠缺 

从 国外 信贷 数据 的 应 用 情况 来 看 ,信贷 数据 有 助 于 银行 监管 者 准确 评估 监管 对 象 的 信用 风 
险 状况 。 对 于 建立 了 公共 征 信 系 统 的 国家 来 说 , 风险 分 析 技术 可 以 成 为 有 效 的 监管 工具 ， 由 于 
银行 业 的 危机 通常 和 高 的 不 良 贷款 率 相关 ,信贷 数据 常常 用 于 信贷 市 场 监控 和 银行 监管 , 是 银 
行 监管 统计 数据 的 补充 。 因 此， 央行 信贷 大 数据 不 仅 可 以 帮助 商业 银行 管理 信用 风险 , 还 可 以 
支持 监管 和 宏观 经 济 分 析 。 未 来 的 研究 可 以 利用 信贷 大 数据 ,基于 预期 损失 模型 来 计算 银行 存 
蒜 保险 费 率 ,从 最 基础 的 信贷 数据 单元 开始 计算 , 给 保费 制定 提供 更 加 及 时 、 准确 的 决策 支持 。 

3. 进行 稍 细 化 的 金融 监管 

技术 进步 加 上 日 益 复杂 的 市 场 ,会 使 得 金融 监管 机 构 的 工作 变 得 艰难 复杂 , 但 大 数据 技术 
的 发 展 提供 了 化 解 之 道 ， 让 金融 市 场 维持 良性 运转 成 为 可 能 。 例如， 金融 监管 机 构 正 利用 计算 
和 “机 器 学 习 ”算法 的 最 新 进展 扫描 金融 市 场 信息 和 公司 财报 ， 从 中 找 出 欺诈 或 市 场 滥用 行为 
的 蛛丝马迹 。 这 些 基于 大 数据 分 析 技术 的 新 型 监管 工具 是 金融 交易 欺诈 俩 查 的 未 米 , 有 越 多 的 
数据 积累 ， 其 功能 就 将 越 强大 。 美 国 证 交会 几 年 前 就 推出 了 一 个 称 为 “机 械 战 警 Robocop) ” 
的 计算 机 程序 (学 名 “会 计 质 量 模型 ”) ， 用 证 交会 的 金融 数据 库 检查 企业 利润 报告 ， 从 中 搜 
寻 可 能 隐藏 的 异常 行为 激进 的 会 计 手 法 或 赤裸裸 的 欺诈 。“ 机 械 战 警 ”的 具体 情况 、 手 法 
透露 给 外 界 的 信息 很 少 ,但 其 基本 思路 是 ， 通过 大 数据 分 析 ， 发 现 多 个 可 能 暗示 着 潜在 会 计 问 
题 的 重要 指标 。 
4. 观测 产业 结构 调整 的 新 角度 
金融 大 数据 的 深入 挖掘 还 可 以 反映 宏观 经 济 变化 的 规律 。 例 如 , 可 以 通过 信贷 大 数据 来 观 
测 产业 结构 的 调整 。 几 千 万 户 企业 及 其 他 组 织 被 收录 进 企 业 征 信 系 统 ,大 量 企业 拥有 信贷 记录 ， 
该 系统 累计 提供 信用 报告 查询 服务 数 十 亿 次 。 该 系统 数据 有 三 大 特点 


COD 全 面 ， 数 据 采 集 覆 盖 了 国内 绝 大 部 分 金融 机 构 。 

(2) 真实 ， 所 采集 的 数据 来 自 于 金融 机 构 实际 发 生 的 每 笔 信贷 业务 ， 统 计 结果 得 自 每 笔 
业务 数据 的 汇总 相 加 ， 数 据 可 追溯 ， 从 而 可 还 原 每 笔 明 细 。 

G) 时 间 跨 度 长 ， 企 业 征 信 系统 始 自 银 行 信贷 登记 咨询 系统 ，2005 年 起 提供 对 外 服务 ， 
已 运行 了 10 年 有 余 , 意味 着 系统 收集 数据 已 超过 10 年 , 因此 ,对 于 分 析 国内 企业 的 行业 行为 
和 行业 情况 很 有 价值 。 例 如 ， 可 以 将 这 些 账户 级 的 信贷 数据 逐 层 整合 成 企业 级 和 行业 级 ， 利 用 
大 数据 挖掘 、 分 析 ， 从 信贷 市 场 角 度 剖析 产业 结构 的 变化 。 


金融 大 数据 分 析 可 以 成 为 宏观 金融 决策 和 监管 的 有 力 工具 ,可 以 在 市 场 化 金融 发 展 的 过 程 
中 发 挥 重要 的 作用 ,与 微观 金融 大 数据 的 应 用 方面 很 多 金融 科技 公司 没有 足够 的 金融 大 数据 的 
情况 不 同 , 国内 的 金融 大 数据 都 掌握 在 政府 和 监管 部 门 的 手中 , 金融 大 数据 的 宏观 应 用 有 着 良 
好 的 数据 条 件 ， 更 容易 见 到 成 效 。 
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第 13 章 银行 业 大 数据 和 人 工 智能 
13.4 s 


大 数据 平台 以 分 布 式 、 弹 性 可 扩展 、 高 可 用 性 、 适 应 快速 变化 的 大 数据 体系 为 架构 ， 能 兼 
顾 大 数据 批量 处 理 和 小 数据 精确 查询 并 存 的 混合 应 用 场景 , 兼容 结构 化 、 半 结构 化 、 非 结构 化 
等 海量 数据 的 低 成 本 存储 ,快速 批 处 理 加 工 数据 ， 同 时 实现 对 相关 数据 接 入 、 传 输 、 交 换 、 共 
享 与 服务 全 流程 的 实时 监控 与 管理 , 为 多 种 实时 决策 类 及 数据 分 析 类 应 用 提供 高 效 、 有 力 的 支 
持 。 大 数据 平台 是 银行 数据 整合 、 处 理 、 加 工 、 分 析 、 应 用 的 基础 性 技术 支撑 平台 。 

未 来 10 年 将 是 银行 大 数据 和 人 工 智能 应 用 的 黄金 时 代 。 大 数据 作为 经 济 新 常态 背景 下 银 
行业 提高 生产 率 的 新 杠杆 ,是 实现 信息 化 银行 、 数 字 化 银行 的 关键 因素 ， 是 推动 转型 的 核心 驱 
动力 ， 是 解决 信息 不 对 称 问题 、 有 效 控制 风险 的 主要 手段 。 当 前 ， 大 数据 分 析 和 人 工 智能 应 用 
能 力 已 成 为 大 型 商业 银行 的 核心 竞争 力 , 受到 高 度 重视 。 各 银行 纷纷 将 大 数据 和 人 工 智 能 作为 
“十 三 五 ”规划 的 重大 战略 发 展 方向 ， 加 快 开展 大 数据 和 人 工 智 能 建设 。 


13.4.1. 大 数据 给 银行 带 来 的 机 遇 与 挑战 
1. 加速 数据 应 用 与 业务 创新 


商业 银行 的 很 多 业务 创新 依赖 于 基于 数据 的 洞察 。 在 经 过 20 多 年 的 业务 电子 化 、 数 据 大 
集中 建设 后 , 商业 银行 已 具备 数据 资源 方面 的 明显 优势 , 基于 大 数据 和 人 工 智能 的 业务 创新 空 
间 巨 大 ， 涉 及 客户 洞察 、 服 务 提 升 、 风 险 防 范 、 精 准 营销 等 领域 。 

数据 应 用 及 业务 创新 的 生命 周期 通常 包含 5 个 阶段 : 业务 定义 需求 ，I 部 门 获 取 并 整合 
数据 ， 数 据 科学 家 构建 并 完善 算法 与 模型 ，IT 系统 部 署 ， 业务 应 用 并 衡量 成 效 。 在 大 数据 环 
境 下 ， 数 据 应 用 及 业务 创新 的 生命 周期 还 是 这 5 个 阶段 ， 但 发 生 了 4 个 方面 的 重大 变化 。 


@ ”数据 量 更 大 、 数 据 源 更 多 ,一般 情况 下 使 用 简单 算法 就 能 实现 业务 洞察 ， 与 以 往 因 数 
据 源 单一 、 样 本 少 而 需要 复杂 算法 的 做 法 不 同 。 
@ 算法 与 技术 手段 更 加 多 样 ， 有 助 于 IT 和 业务 挖掘 新 的 关联 关系 。 
€ ”业务 和 IT 的 合作 模式 转变 为 联合 开展 数据 探索 和 分 析 挖 所 ,IT 部 门 更 擅长 获取 全 面 、 
细节 的 信息 ， 更 了 解数 据 的 血缘 关系 ， 业 务 部 门 更 懂得 数据 的 真实 意义 和 业务 需求 ， 
两 者 紧密 合作 有 利于 更 好 、 更 快 地 建立 算法 模型 。 
e ”数据 应 用 及 业务 创新 的 生命 周期 大 幅 缩短 , 由 传统 技术 环境 下 的 半年 乃至 更 长 的 时 间 
缩短 为 几 周 或 更 短 的 时 间 。 以 往 IT 交付 和 支持 效率 制约 了 业务 创新 的 步伐 ， 在 大 数 
据 环境 下 ,数据 应 用 的 开发 和 交付 周期 大 幅 缩短 , “小 步 快 跑 ” 成 为 业务 创新 的 方式 。 
大 数据 运作 模式 使 得 快速 、 低 成 本 试 错 和 从 代 创新 成 为 可 能 , 即 数据 分 析 中 一 旦 发 现 有 价 
值 的 规律 ， 就 快速 开发 新 产品 并 进行 商业 化 推广 ， 若 效果 不 理想 ， 则 果断 退出 。 这 种 模式 使 得 
商业 银行 可 以 关注 过 去 由 于 种 种 原因 被 忽略 的 大 量 “ 小 机 会 ”， 并 将 这 些 “ 小 机 会 ”快速 累积 
ERER “KME” o 
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此 外 , 数据 的 聚合 与 共享 为 金融 机 构 措 建 生态 系统 提供 了 新 的 场景 与 动力 。 商业 银行 可 以 
更 加 积极 快速 地 开展 内 部 跨 业 务 条 线 合 作 ， 以 及 外 部 同业 、 跨 行业 合作 。 


2. 推进 银行 数字 化 转型 


数字 银行 以 大 数据 、 移 动 互联 网 、 人 工 智能 等 先进 信息 技术 为 支撑 , 全面 强化 了 “以 客户 
为 中 心 ”的 理念 , 强调 通过 数字 化 的 宽带 网 络 和 移动 互联 网 等 新 兴 渠 道 为 客户 提供 便利 化 服务 
以 增加 客户 黏 性 。 数字 银行 的 构成 包括 4 个 部 分 : 以 客户 信息 安全 为 核心 ,实现 多 样 化 服务 渠 
道 ， 实 现 客户 化 服务 流程 ， 实 现 常 态 化 服务 创新 。 

传统 银行 为 实现 “以 客户 为 中 心 ” 进 行 了 大 量 努 力 ， 却 仍 感到 对 客户 的 需求 了 解 得 不 够 ， 
而 客户 也 常常 抱怨 银行 服务 太 差 , 银行 与 客户 之 间 存 在 着 巨大 的 信息 不 对 称 的 鸿沟 。 大 数据 为 
银行 观察 客户 、 分 析 客 户 提供 了 一 个 全 新 的 视角 ， 基 于 海量 的 、 多 样 性 的 数据 ， 银 行 可 以 获得 
更 及 时 、 更 具 前 瞻 性 的 客户 信息 , 大 数据 技术 为 银行 深入 洞察 客户 提供 了 新 的 图 景 和 可 行 的 解 
决 方案 。 

银行 在 数据 来 源 方面 具有 多 渠道 多 触角 的 优势 , 拥有 大 量 的 客户 行为 数据 , 客户 通过 各 种 
渠道 与 银行 互动 都 留 下 了 痕迹 ， 这 些 动态 信息 与 客户 财务 数据 等 静态 信息 相 比 ， 更 具 稳定 性 ， 
基于 客户 行为 数据 的 分 析 挖掘 也 使 得 银行 对 客户 的 了 解 更 加 准确 。 

当前 ， 一 方面 ， 移 动 智能 终端 、 手 机 App 以 及 基于 网 络 层 的 数据 采集 技术 的 快速 发 展 使 
得 第 一 时 间 获 取 客 户 动态 信息 成 为 可 能 ; 另 一 方面 ， 大 数据 领域 的 流 计算 技术 为 实时 客户 行 
为 分 析 、 风 险 和 信用 评估 、 反 欺诈 检查 、 产 品 精准 推荐 提供 了 低 成 本 的 高 速 运算 平台 (毫秒 
级 快速 响应 ， 实 现 算法 或 模型 的 动态 迭代 ， 与 联机 交易 系统 实现 联动 ) ， 使 得 商业 银行 能 够 
更 加 灵敏 地 感知 商业 环境 和 客户 需求 ， 更 加 顺畅 地 搭建 反馈 闭环 ， 实 现 数据 驱动 的 个 性 化 金 
融 服务 推荐 ， 开 展 事件 营销 和 交叉 营销 ， 在 提高 营销 成 功率 的 同时 提升 客户 体验 ， 甚 至 可 以 
基于 以 往 的 接触 信息 或 外 部 信息 ， 针 对 潜在 客户 提供 更 精准 的 产品 推荐 和 更 好 的 客户 体验 ， 
实现 更 好 地 获 客 。 


3. 推动 IT 部 门 从 后 台 走 向 前 台 


大 数据 应 用 过 程 中 , 跨 系 统 、 跨 业务 条 线 的 数据 汇聚 和 数据 整合 需要 IT 部 门 规划 和 实施 ， 
跨 业 务 条 线 的 数据 开放 和 共享 需要 I 开 部 门 推动 ,将 数据 转变 为 可 理解 的 信息 需要 I 开 部 门 加 工 。 
一 个 独立 于 YT 的 业务 部 门将 很 难 对 快速 进化 的 数据 平台 、 数 据 集合 、 信 息 库 、 模 型 库 和 知识 
库 进 行 高 效 管理 。 

在 大 数据 和 人 工 智能 平台 上 ， 业 务 部 门 和 IT 部 门 只 有 紧密 合作 、 相 互 依赖 、 联 合 创新 ， 
才能 实现 从 数据 到 价值 的 高 效 转化 。 可 以 预见 ， 大 数据 和 人 工 智能 的 深度 应 用 必然 将 TT 部 门 
从 “后 端 ”不 断 推 向 “前 台 ”。 银 行 科技 部 门 也 应 清晰 地 认识 到 “大 数据 是 实现 “IT 引领 ” 
最 重要 的 抓 手 ”， 与 业务 合作 开展 产品 创新 、 流 程 创 新 ， 推 进 银行 转型 ， 促 使 银行 管理 从 基于 
经 验 的 管理 向 以 数据 分 析 为 基础 的 精细 化 管理 转变 。 由 此 ， 商 业 银行 中 IT 部 门 的 定位 也 将 发 
生 巨 大 变化 。 

首先 ，IT 部 门 从 业务 发 展 的 支撑 者 转变 为 业务 创新 的 合作 伙伴 。IT 部 门 应 建立 专业 的 数 
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据 分 析 团 队 ， 高 效 地 开展 数据 采集 、 整 合 和 分 析 加 工 工作 ,结合 业务 需求 不 断 开 发 数据 产品 和 
工具 平台 ， 与 业务 部 门 一 起 开展 模型 、 指 标 研发 ， 支 持 业务 部 门 开展 分 析 洞察 和 推广 应 用 ， 为 
业务 开展 提供 服务 保障 、 决 策 分 析 、 优 化 建议 等 运营 支持 ， 推 进 银行 业务 流程 创新 、 产 品 创新 





和 服务 创新 。 


其 次 ， 数 据 分 析 中 心 将 逐步 从 成 本 中 心 向 利润 中 心 转变 。 通 过 对 数据 的 深入 挖掘 与 使 用 ， 
科技 部 门 对 内 可 以 研发 推广 数据 产品 , 开展 数据 运营 ， 创 造 业 务 效益 ， 对 外 可 以 提供 数据 服务 
能 力 输出 ， 通 过 外 部 合作 实现 数据 资产 的 增值 变现 ， 直 接 给 银行 带 来 营业 收入 。 

4. 建立 “开放 、 共 享 、 融 合 ”的 大 数据 体系 

银行 拥有 丰富 的 信息 系统 和 数据 资源 ,每 个 系统 及 其 数据 都 有 归口 的 业务 部 门 。 数 据 虽 多 ， 
但 整合 困难 。 数 据 的 存在 状态 反映 了 整个 组 织 的 现状 ， 即 “部 门 分 制 ”。 数 据 在 组 织 内 部 处 于 





割裂 状态 ， 业 务 条 线 、 职 能 部 门 、 渠 道 部 门 、 


风险 部 门 等 各 个 分 支 机 构 往往 是 数据 的 真正 拥有 





者 ， 而 这 些 拥有 者 之 间 却 常常 缺乏 顺畅 的 数据 共享 机 制 ， 跨 业务 条 线 、 跨 部 门 的 数据 利用 一 般 
要 经 过 跨 条 线 、 跨 部 门 的 协调 和 审批 。 这 种 模式 导致 了 金融 机 构 中 的 海量 数据 往往 处 于 分 散 和 
“睡眠 ”状态 。 而 大 数据 要 想 发 挥 大 价值 ， 需 要 “全 量 ” 数 据 的 支撑 ， 要 求 金融 机 构 的 内 部 数 
据 必须 实现 高 度 整合 和 共享 。 目 前 , 多 数 银行 还 没有 建立 “开放 、 共 享 、 融 合 ”的 大 数据 体系 ， 
数据 整合 和 部 门 协调 等 问题 仍 是 阻碍 金融 机 构 将 数据 转化 为 价值 的 主要 瓶颈 。 


5. 制定 大 数据 安全 策略 


大 数据 的 整合 、 跨 企业 的 外 部 大 数据 合作 不 可 避免 地 加 大 了 客户 隐私 信息 泄露 的 风险 。 银 
行业 在 因 大 数据 而 获 益 的 同时 , 也 面临 着 随 之 而 来 的 风险 。 信 息 安全 事件 的 频 发 将 大 数据 安全 
问题 推 向 了 风口 浪 尖 ， 有 效 防 范 信息 安全 风险 成 为 商业 银行 大 数据 应 用 中 急需 解决 的 问题 。 

商业 银行 要 合理 制定 大 数据 安全 策略 ,一 是 围绕 大 数据 生命 周期 进行 部 署 ,在 数据 的 产生 、 


传输 、 存 储 和 使 用 的 各 个 环节 采取 安全 措施 ， 


提高 安全 防护 能 力 , 减少 内 部 违规 及 管理 疏 漏 风 


险 ， 并 出 台 相 关 安 全 法 规 ， 理 性 分 析 “ 大 数据 热 ”， 扎 实 做 好 基础 性 工作 : 二 是 在 数据 存储 、 
数据 访问 、 数 据 传输 和 数据 销毁 等 多 个 环节 做 好 数据 安全 控制 ， 提 高 安全 意识 ,出 台 相 关 法 规 
和 政策 措施 ， 合 理 改造 、 建 设 和 布局 TT 基础 设施 。 


13.4.2 ”银行 大 数据 体系 建设 的 思 


商业 银行 大 数据 体系 建设 是 一 个 系统 工程 ， 门 槛 较 高 、 投 入 大 、 周 期 较 长 、 影 响 面 广 且 深 
远 。 商 业 银 行 在 大 数据 体系 建设 中 可 借鉴 互联 网 企业 、 电 信 运 营 商 等 先进 企业 的 经 验 , 结合 自 


身 特点 ， 综 合 考虑 以 下 原则 。 
1. 业务 为 本 、 应 用 为 先 


大 数据 应 用 的 目的 是 创造 价值 。 银 行 大 数据 服务 能 力 只 有 与 业务 场景 、 业 务 产品 、 业 务 经 


营 活动 结合 起 来 ， 才 能 转化 为 业务 价值 。 


大 数据 不 能 一 味 追 求 “ 数 据 规 模 大 ”， 而 要 坚持 “业务 为 本 、 应 用 为 先 ”。 只 有 这 样 ， 才 


能 让 大 数据 建设 有 明确 的 方向 , 才能 得 到 管理 





E 层 和 业务 部 门 的 支持 , 否则 可 能 陷入 大 数据 的 汪 
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洋 大 海 ， 迷 失 在 各 类 数据 处 理 或 各 种 新 技术 研究 中 。 

银行 大 数据 应 用 不 是 搞 底层 研发 , 而 是 要 解决 实际 问题 , 实际 问题 只 能 来 源 于 业务 。 大 数 
据 可 应 用 的 方向 很 多 ， 如 客户 服务 提升 、 信 用 评级 、 风 险 防范 、 业 务 拓展 、 业 务 创新 等 ， 银 行 
不 可 能 在 同一 时 间 面 面 俱 到 ， 还 要 找 准 方向 ， 聚 焦 问题 ， 找 准 业务 合作 部 门 ， 重 点 突破 ， 分 步 
建设 。 
尽管 大 数据 产生 价值 的 潜力 巨大 , 但 也 不 能 急功近利 。 大 数据 的 价值 类 似 于 “蜜蜂 模型 ”， 
即 除了 蜂蜜 的 价值 外 ， 更 大 的 价值 在 于 传粉 对 农业 的 巨大 贡献 。 也 就 是 说 ， 大 数据 除了 产生 直 
接 的 财务 价值 外 ， 更 体现 在 对 商业 模式 变革 的 推动 作用 上 。 


2. 数据 是 根本 








中 国 ] 








[ 程 院 李 国 杰 院 士 指出 ， 大 数据 的 力量 来 自 “ 大 成 智慧 ”。 每 一 种 数据 来 源 都 有 一 定 





的 局 限 性 和 片面 性 ， 只 有 融合 、 集 成 各 方面 的 原始 数据 ， 才 能 反映 事物 的 全 貌 。 事 物 的 本 质 和 
规律 隐藏 在 各 种 原始 数据 的 相互 关联 之 中 。 对 同一 个 问题 , 不 同 的 数据 能 提供 互补 信息 ,综合 


分 析 可 对 





问题 有 更 深入 的 理解 。 因 此 在 大 数据 分 析 中 ， 汇 集 尽 量 多 来 源 的 数据 是 关键 。 


大 数据 能 不 能 出 智慧 ,关键 在 于 对 多 种 数据 源 的 集成 和 融合 。 单 靠 一 种 数据 源 ， 即 使 数据 
规模 很 大 ， 也 可 能 出 现 “ 睹 子 摸 象 ” 似 的 片面 性 。 数 据 的 开放 共享 不 是 锦上添花 的 工作 ， 而 是 
决定 大 数据 成 败 的 关键 因素 。 

数据 是 未 来 商业 银行 的 核心 竞争 力 之 一 ,决定 着 银行 的 未 来 发 展 , 这 已 成 为 银行 业 的 共识 。 
银行 拥有 丰富 的 数据 资源 , 不 仅 存 储 了 大 量 结构 化 的 账 务 数据 、 强 实名 认证 的 客户 信息 ,还 存 
储 了 大 量 用 户 浏览 、 行 为 点 击 等 非 结构 化 数据 。 

银行 通过 整合 客户 交互 、 交 易 流水 、 位 置 轨迹 等 数据 ， 从 海量 数据 中 沉淀 并 提升 银行 数据 
资产 ， 形 成 以 客户 为 中 心 的 指标 标签 体系 ， 并 在 银行 内 部 各 个 部 门 、 各 个 条 线 间 进行 共享 ， 节 
省 数据 成 本 ， 减 少 信息 不 对 称 风险 。 


同时 ， 





通过 跨行 业 的 外 部 合作 ， 如 与 互联 网 公司 、 电 信 运 营 商 、 征 信 企 业 等 建立 数据 战略 


合作 关系 ,在 保障 数据 安全 的 基础 上 开展 数据 合作 ,打通 单一 行业 的 大 数据 孤岛 ,实现 跨行 业 
的 数据 共享 。 


3. 平台 是 基础 


海量 、 


高 效 、 弹 性 、 共 享 的 大 数据 平台 是 银行 大 数据 能 力 的 关键 组 成 部 分 ， 是 提高 数据 采 


集 、 整 合 、 分 析 效 率 ， 缩 短 数据 应 用 和 业务 创新 周期 的 关键 。 

大 数据 平台 不 仅 包 括 Hadoop 分 布 式 批量 数据 处 理 系 统 ， 更 是 一 个 多 样 化 的 生态 系统 。 在 
数据 处 理 维度 方面 ， 包 括 数据 采集 层 、 数 据 整 合 层 、 数 据 分 析 层 、 数 据 应 用 层 ; 在 数据 服务 维 
度 方面 ,包括 数据 存储 与 分 析 探 索 区 、 数 据 产品 与 服务 区 、 实 时 流 处 理 区 ; 在 数据 管理 维度 方 
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， 包 括 源 数据 管理 、 指 标 管理 、 元 数据 管理 、 数 据 安全 管理 等 模块 。 


单一 的 技术 平台 或 工具 产品 不 可 能 满足 多 样 的 结构 化 和 非 结构 化 数据 处 理 的 需求 ,这 决定 
了 大 数据 于 
应 用 集群 , 也 有 面向 客户 的 应 用 集群 。 大 数据 平台 的 规划 设计 需要 自 下 而 上 的 业务 需求 与 自 上 


F 台 的 技术 架构 必然 是 混搭 架构 ， 既 有 分 布 式 , 也 有 和 集中 式 的 集群 ， 既 有 面向 业务 的 
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而 下 的 总 体 规划 相 结合 ， 要 具有 前 瞎 性 和 灵活 性 。 

4, 数 所 质量 是 保障 

大 数据 应 用 对 企业 的 数据 治理 能 力 提出 很 高 要 求 ,在 数据 质量 没有 保障 的 情况 下 开展 大 数 
据 应 用 ， 其 结果 很 可 能 是 “精确 误导 ”。 因 此， 商业 银行 的 大 数据 建设 从 一 开始 就 必须 坚持 数 
据 质 量 是 保障 的 原则 。 

尽管 大 部 分 银行 已 经 建立 起 一 定 的 数据 治理 机 制 ,但 随 着 大 数据 应 用 的 深入 , 还 需 结合 
数据 特点 ， 完 善 兼顾 传统 数据 平台 和 大 数据 平台 的 新 型 数据 治理 机 制 ， 包 括 数据 标准 、 主 数据 
管理 、 数 据 生命 周期 管理 、 元 数据 管理 等 

在 大 数据 体系 建设 中 ， 要 建立 起 配套 的 源 数 据 管理 、 指 标 管理 、 模 型 管理 、 安 全 管理 等 规 
范 、 流 程 和 对 应 的 工具 平台 ， 更 要 落地 集中 化 管控 ， 做 好 大 数据 平台 的 生命 周期 管理 。 


5. 人 才 是 关键 


大 数据 工程 的 实质 是 人 才 工程 ， 数 据 采 集 、 数 据 整合 、 数 据 理解 和 探索 、 数 据 分 析 、 数 据 
产品 开发 等 各 项 工作 都 需要 人 力 投入 。 机 器 学 习 、 人 工 智 能 方面 的 众多 工具 也 需要 高 素质 人 才 
的 驾驭 和 互动 。 

当前 商业 银行 的 大 数据 建设 急需 熟练 掌握 大 数据 技术 的 专业 技术 人 才 、 大 数据 分 析 人 才 和 
数据 产品 创新 人 才 ， 而 现 有 的 人 才 体系 中 ， 上 述 人 才 匮 乏 ， 商 业 银行 IT 人 员 中 ， 掌 握 传 统 技 
术 架 构 的 人 才 多 , 掌握 新 兴 大 数据 技术 和 工具 的 人 才 不 足 ; 传统 软件 研发 人 员 多 , 但 数据 科学 
家 、 数 据 工程 师 很 少 或 几乎 没有 ， 具 有 深刻 互联 网 思维 的 产品 创新 人 员 更 是 严重 缺乏 。 

随 着 大 数据 热潮 的 到 来 ,大 数据 人 才 对 社会 而 言 也 是 稀缺 资源 , 与 互联 网 企业 相 比 ,传统 
商业 银行 并 不 具备 吸引 大 数据 人 才 的 优势 , 甚至 缺乏 引进 稀缺 人 才 的 灵活 机 制 。 在 这 样 的 背景 
下 ,商业 银行 的 大 数据 人 才 战 略 应 以 自主 培养 为 主 ,应 尽快 建立 一 支 由 大 数据 战略 专家 、 数 据 
科学 家 、 数 据 技术 人 才 组 成 的 大 数据 专业 团队 。 

此 外 , 商业 银行 还 应 建立 和 完善 有 利于 人 才 成 长 的 体制 和 机 制 以 及 良好 的 工作 氛围 , 拓宽 
政策 渠道 , 创造 有 利 的 工作 条 件 , 建立 科学 的 用 人 制度 和 人 才 培 育 计 划 , 充分 调动 员工 的 积极 
性 、 主 动 性 、 创 造 性 ， 为 大 数据 服务 体系 建设 提供 有 力 的 人 才 保 障 。 
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医疗 大 数据 是 重要 的 基础 性 战略 资源 之 一 ， 其 应 用 发 展 将 推动 健康 医疗 模式 的 革命 性 变 
化 。 医 疗 大 数据 的 人 工 智能 分 析 应 用 可 优化 医疗 资源 配置 、 降 低 医疗 成 本 、 提 升 医疗 服务 运行 
效率 、 突 发 公共 卫生 事件 预警 与 应 急 响 应 , 将 对 我 国 社会 和 人 民 的 生活 等 产生 重大 而 深远 的 影 
响 ， 具 有 巨大 的 发 展 潜力 、 商 业 机 会 和 创业 空间 。 为 推动 医疗 大 数据 的 快速 发 展 ， 国 家 相继 出 
台 了 一 系列 相关 政策 ， 并 把 医疗 大 数据 上 升 为 国家 战略 。 

在 国家 层面 的 积极 倡导 下 ,各 地 政府 、 医 疗 机 构 和 相关 企业 等 开始 从 不 同 环节 切入 ， 进 行 

医疗 大 数据 建设 ， 并 积极 探索 相关 业务 应 用 。 比 如 ， 福 州 建立 了 国家 健康 医疗 大 数据 平台 ， 
入 了 数 十 家 医院 ， 电 子 病历 数 千 万 份 , 数据 存储 条 数 数 十 亿 条 ; 东软 公司 建立 了 肿瘤 大 数据 平 
台 ， 采 集 多 方 数据 ， 进 行 数据 脱 敏 ， 实 现 肿 瘤 大 数据 的 智能 分 析 和 应 用 ， 支 持 临 床 辅助 决策 。 
在 精准 医疗 领域 , 中 国 科学 院 、 中 国医 学 科学 院 、 北 京 大 学 等 研究 机 构 通过 基因 测序 帮助 病人 
预测 疾病 ， 进 行 个 性 化 的 精准 医疗 。 

在 美国 , 出 现 了 专门 为 医疗 健康 行业 提供 大 数据 分 析 和 解决 方案 的 服务 公司 , 如 总 部 位 于 
美国 马里 兰州 的 Inovlon， 已 经 在 2015 年 成 功 登陆 纳 斯 达 克 。 大 型 IT 公司 也 纷纷 为 医疗 健康 
行业 提供 大 数据 分 析 产 品 。 比 如 ，IBM 公司 提供 了 Watson 人 工 智能 分 析 平 台 ， 通 过 认 知 计算 
来 吸收 结构 化 和 非 结 构 化 的 数据 ， 每 秒 处 理 500GB 的 数据 ， 提 供 病 人 互动 、 临 床 护理 、 诊 断 、 
研究 、 数 据 可 视 化 等 服务 , 经 过 数据 处 理 与 分 析 , 依据 与 疗效 相关 的 临床 、 病 理 及 基因 等 特征 ， 
为 医生 提出 规范 化 临床 路 径 及 个 体 化 治疗 建议 ， 疾 病 诊断 正确 率 能 够 达到 75%。 






































医疗 大 数据 的 特点 


医疗 大 数据 是 指 在 医疗 服务 过 程 中 产生 的 与 临床 和 管理 相关 的 数据 ， 包 括 电子 病历 数据 、 
医学 影像 数据 、 用 药 记录 等 。 医 疗 大 数据 除了 具有 大 数据 的 “4V” 特 点 外 ， 还 包括 时 序 性 、 
隐私 性 、 不 完整 性 等 医疗 领域 特有 的 一 些 特征 。 
€ 规模 大 (Volume ) : 1 个 CT 图 像 约 为 130MB，1 个 基因 组 序列 约 为 750MB，1 份 标 
准 的 病历 约 为 5GB; 1 个 社区 医院 数据 量 约 为 数 TB 至 PB, 全国 健康 医疗 数据 到 2020 
年 约 为 35ZB。 医 疗 行业 在 数字 世界 中 占 比 为 30%。 
e KASH (Variety): 包含 文本 、 影 像 、 音 频 等 多 类 数据 。 
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€ Kh (Velocity) : 信息 技术 发 展 促使 越 来 越 多 的 医疗 信息 数字 化 ， 大 量 在 线 或 实 
时 数据 持续 增多 ， 如 临床 决策 诊断 、 用 药 、 流 行 病 分 析 等 。 据 权威 机 构 预 测 ， 医 疗 数 
据 每 年 以 48% 的 速度 增长 。 

© 价值 巨大 (Value): 医疗 数据 的 有 效 使 用 有 利于 公共 疾病 防 控 、 精 准 诊疗 、 新 药 研 
发 、 医 疗 控 费 、 奖 疾 攻克 、 健 康 管理 等 ， 但 数据 价值 密度 低 。 

e HER: 患者 就 诊 、 疾 病 发 病 过 程 在 时 间 上 有 一 个 进度 ， 医 学 检测 的 波形 、 图 像 均 为 
时 间 函 数 。 

e ”隐私 性 : 患者 的 医疗 数据 具有 高 度 的 隐私 性 ， 泄 露 信息 将 造成 严重 后 果 。 

@ 不 完整 性 : 大 量 来 源 于 人 工 记录 ， 导 致 数据 记录 的 残缺 和 偏差 ， 医 疗 数据 的 不 完整 搜 
集 和 处 理 使 医疗 数据 库 无 法 全 面 反映 疾病 信息 。 

e ”长 期 保存 性 : 医疗 数据 需要 长 期 保存 。 


14.2 医疗 大 数据 处 理 模型 


医疗 大 数据 平台 中 的 数据 从 医院 信息 平台 获取 , 依据 相关 业务 应 用 经 整合 、 加 工 后 ， 供 医 
护 人 员 、 患 者 和 医院 管理 人 员 使 用 ， 医 疗 大 数据 处 理 模型 如 图 14-1 所 示 。 
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图 14-1 医疗 大 数据 处 理 模 型 
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1. 数据 获取 

数据 获取 即 根据 应 用 主题 从 医院 信息 平台 获取 相关 原始 数据 存储 于 医疗 大 数据 平台 数据 库 。 

2. 数据 整合 

数据 整合 是 将 从 医院 信息 平台 抽取 的 业务 数据 按照 统一 的 存储 和 定义 进行 集成 ,医院 信息 
化 经 过 多 年 的 发 展 , 积累 了 很 多 基础 性 和 零散 的 业务 数据 。 但 是 数据 分 散在 临床 、 医 技 、 管理 
等 不 同 部 门 , 致使 数据 查询 访问 困难 , 医院 管理 层 人 员 无 法 直接 查阅 数据 ， 若 对 数据 进行 分 析 
利用 ， 则 需要 综合 不 同 格式 、 不 同业 务 系统 的 数据 。 


3. 数据 加 工 
将 整合 后 的 数据 进行 清洗 、 转换 、 加 载 , 根据 业务 规则 建立 模型 , 对 数据 进行 计算 和 聚合 。 
4. 数据 展现 


数据 展现 即 数据 可 视 化 ， 为 方便 医护 人 员 、 患 者 和 管理 人 员 理解 和 阅读 数据 ， 而 采用 相关 
技术 进行 的 数据 转换 。 


5. 数据 分 析 
医疗 大 数据 分 析 可 服务 于 患者 、 临 床 医疗 和 医院 管理 。 如 图 14-2 所 示 是 一 个 基于 患者 就 
诊 过 程 的 医疗 大 数据 分 析 与 应 用 的 模型 。 
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ejeje] 
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图 14-2 基于 患者 就 诊 过 程 的 医疗 大 数据 分 析 与 应 用 模型 


该 模型 展现 了 从 患者 入 院 到 出 院 过 程 中 产生 的 相关 数据 , 主要 包括 患者 特征 数据 、 病 种 数 
据 、 治 疗 方案 与 费用 数据 、 治 疗 状态 数据 及 在 该 过 程 中 产生 的 管理 类 数据 。 


e 患者 特征 数据 
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串 者 特征 数据 主要 有 主诉 、 现 病史 、 检 查 检验 类 数据 涵盖 疾病 的 主要 症状 、 体 征 、 发 病 
过 程 、 检 查 、 诊 断 、 治 疗 及 既往 疾病 信息 、 不 良 嗜好 ， 甚 至 是 职业 、 居 住地 等 信息 。 
e 病 种 数据 


即 患者 疾病 的 诊断 结果 ， 一 般 有 第 一 诊断 、 第 二 诊断 、 第 三 诊断 等 。 目 前 医疗 机 构 大 多 使 
用 ICD-9/ICD-10 进行 疾病 的 分 类 与 编码 。 


e ”治疗 方案 与 费用 数据 


根据 诊断 结果 ， 为 患者 提供 的 治疗 方案 与 费用 数据 主要 包括 药品 、 检 查 、 检 验 、 手 术 、 护 
理 、 治 疗 六 大 类 ， 此 外 ， 费 用 数据 还 有 材料 费 、 床 位 费 、 护 理 费 、 换 药 费 用 等 。 


e ”治疗 状态 数据 

治疗 状态 数据 即 患者 出 院 时 的 治疗 结局 ， 一 般 分 为 治愈 、 好 转 、 未 愈 、 死 亡 4 类。 

e ”管理 类 数据 

除了 患者 就 医 过 程 产 生 的 服务 于 医院 管理 的 数据 外 ， 还 包括 医院 运营 和 管理 系统 中 的 数 
据 ， 如 物资 系统 、HRP、 财 务 系统 、 绩 效 考核 系统 等 产生 的 数据 。 


基于 患者 就 诊 过 程 的 医疗 大 数据 分 析 与 应 用 模型 ， 将 医疗 大 数据 分 为 患者 特征 、 病 种 、 治 
疗 方案 、 费 用 、 治 疗 状态 、 管 理 数据 5 种 类 型 ， 主 要 的 应 用 模式 包括 以 下 几 个 方面 。 


e 患者 特征 
根据 患者 居住 地 和 就 诊 地 的 距离 、 医 疗 卫生 服务 水 平等 因素 分 析 患 者 流向 ， 通 过 患者 、 疾 
病 、 医 疗 机 构 多 角度 、 深 层次 、 全 方位 地 分 析 影响 患者 跨 域 就 诊 的 因素 。 


e xh 

通过 对 医院 接 诊 患 者 的 诊断 结果 可 以 分 析 医 院 疾病 的 种 类 和 发 病 率 ， 病 种 患者 数量 分 布 、 
病 种 科室 分 布 等 。 

e $A 


对 医院 药 占 比 、 门 诊 病 人 次 均 医 药 费 用 、 住 院 病 人 人 均 医 药 费用 、 门 诊 病人 次 均 医 药 费用 
增幅 、 住 院 病人 人 均 医药 费用 增幅 、 典 型 单 病 种 例 均 费 用 、 参 保 患 者 个 人 支出 比例 、 医 保 目录 
外 费用 比例 、 检 查 和 化 验收 入 占 医疗 收入 比重 、 卫 生 材料 收入 占 医 疗 收入 比重 、 挂 号 / 诊 察 / 床 
位 /治疗 /手术 /护理 收入 总 和 占 医 疗 收入 比重 、 百 元 医疗 收入 消耗 的 卫生 材料 费用 、 管 理 费用 率 、 
资产 负债 率 等 进行 分 析 。 

e 患者 特征 - 病 种 -治疗 方案 

包括 病 种 与 患者 体征 的 关系 \ 同 一 病 种 治疗 方案 选择 的 关系 、 病 种 与 检查 检验 数据 的 关系 、 
疾病 与 诊疗 过 程 的 关系 、 疾 病 和 药物 使 用 的 关系 等 。 


e 。” 病 种 -治疗 方案 -费用 -治疗 状态 
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根据 医疗 机 构 的 医疗 费用 和 疗效 数据 ， 通 过 建立 的 成 本 -效果 疗效 ) 分 析 模 型 ， 计 算 病 
种 不 同治 疗 方案 的 平均 成 本 、 平 均 效 果 、 增 量 平均 成 本 、 增 量 平均 效果 等 指标 ， 以 及 成 本 - 效 
ARLE (C/E) 、 增 量 成 本 -效果 比 CICER) 等 效果 指标 ， 并 进行 相关 指标 的 敏感 度 以 及 不 同治 
疗 方案 的 成 本 敏感 度 分 析 。 


e 管理 


基于 医院 信息 系统 产生 的 医疗 业务 、 临 床 业务 、 医 疗 运营 数据 可 开展 动态 化 、 过 程 化 、 精 
细 化 的 医院 管理 。 可 以 更 有 效 地 对 各 科室 、 各 种 医疗 人 员 进 行 全 面 的 医疗 业务 、 医 疗 费用 、 医 
疗 安全 、 医 疗 质量 、 医 疗 绩效 的 监管 。 


14.5. 医疗 大 数据 的 AI 应 用 


目前 ， 行 业 治 理 、 临 床 科研 、 公 共 卫 生 、 管 理 决策 、 便 民 惠 民 以 及 产业 发 展 已 经 成 为 我 国 
健康 医疗 大 数据 的 六 大 核心 应 用 。AI 应 用 以 前 三 者 为 重点 分 析 对 象 ， 聚 焦 于 行业 治理 的 体制 
改革 评估 、 医 院 管理 和 医保 控 费 ， 临 床 科研 领域 的 临床 决策 支持 药物 研发 、 精 准 医疗 等 方面 ， 
公共 卫生 则 在 多 元 化 数据 检测 的 基础 上 构建 重大 突 发 事件 预警 和 应 急 响应 体系 , 同时 探索 开展 
个 性 化 健康 管理 服务 。 在 应 用 开发 方面 ，IT 巨头 和 数据 驱动 型 创新 企业 各 有 特点 ， 除 此 之 外 ， 
拥有 丰富 资源 的 政府 和 医疗 机 构 也 开始 扮演 重要 的 角色 。 

下 面 我 们 阐述 医疗 大 数据 的 几 个 AI 应 用 : 智能 辅助 诊疗 、 影像 数据 分 析 与 影像 智能 诊断 、 
合理 用 药 、 远 程 监控 、 精 准 医疗 、 成 本 与 疗效 分 析 、 绩 效 管 理 、 医 院 控 费 、 医 疗 质量 分 析 等 。 


14.3.1 智能 辅助 诊疗 


借助 大 数据 分 析 挖 掘 技术 , 在 医院 大 量 疾病 临床 资料 的 基础 上 , 将 同 种 疾病 不 同 患者 的 就 
诊 数据 根据 体征 、 环 境 因素 、 社 会 因素 、 心 理 因素 、 经 济 因素 等 多 个 角度 划分 为 不 同 的 组 ， 以 
选择 适合 不 同 组 的 检查 检验 类 型 、 治 疗 方案 类 型 等 。 当 有 新 的 患者 来 医院 就 诊 时 ， 医 生 可 进入 
系统 ， 依 据 该 患者 的 特征 数据 将 其 进行 分 类 ， 然 后 为 其 选择 个 性 化 的 诊疗 方案 。 


14.3.2 ”影像 数据 分 析 与 影像 智能 诊断 


影像 数据 分 析 与 影像 智能 诊断 即 借助 PACS 系统 ， 在 尽 可 能 保持 图 像 数 据 准确 性 和 真实 
性 的 条 件 下 ， 首 先 利 用 多 维 影像 融合 CCT/MRUPET-CI). 技术 等 对 影像 数据 进行 配 准 、 分 割 、 
RA, Zit PACS 处 理 的 影像 数据 ， 进 一 步 通 过 人 工 智 能 技术 进行 病灶 识别 等 数据 上 的 挖掘 
和 应 用 ， 可 有 效 减少 医生 的 负担 ， 提 高 医学 判断 的 精准 性 。 








14.3.3 AAS 
合理 用 药 是 根据 疾病 种 类 、 患 者 状况 和 药理 学 理论 选择 最 佳 药 物 及 其 制剂 , 制定 或 调整 给 
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药方 案 ， 以 期 安全 、 有 效 、 经 济 地 预防 和 治愈 疾病 。 除 了 执行 国家 药物 政策 、 规 范 医疗 行为 、 
加 强 药学 服务 等 措施 之 外 , 通过 临床 合理 用 药 审核 、 咨询 系统 来 规范 临床 医师 的 用 药 行为 也 是 
提高 合理 用 药水 平 的 有 效 措施 。 可 采用 大 数据 技术 ,依据 患者 的 病历 病史 、 疾 病 诊断 、 医 嘱 信 
息 、 用 药 信息 、 过 敏 信息 等 进行 用 药 安全 警示 ， 如 药物 禁忌 审查 、 配 伍 禁 忌 审查 、 药 物 相互 作 
用 审查 等 ， 及 时 发 现 不 合理 的 用 药 问题 。 此 外 ， 可 对 医院 历史 处 方 数据 进行 大 数据 挖掘 ， 分 析 
抗菌 药 、 注 射 剂 、 基 本 药物 等 占 处 方药 的 百分比 ,检验 医院 处 方 开具 的 不 合格 率 ， 为 规范 医疗 
行为 提供 数据 支持 。 


14.8. ”远程 监控 


远程 病人 监护 系统 包括 家 用 心脏 检测 设备 、 血 糖 仪 、 芯 片 药 片 等 。 远程 监控 系统 中 包含 大 
量 的 医疗 数据 , 可 从 远程 监护 系统 中 进行 患者 相关 体征 数据 的 收集 , 经 分 析 后 再 将 结果 反馈 至 
监控 设备 ， 围 绕 体征 数据 的 采集 ， 对 相应 波动 规律 进行 分 析 和 判断 ， 结 合 患 者 的 病史 资料 ， 确 
定 今后 的 用 药 和 治疗 方案 。 同 时 可 减少 患者 的 住院 时 间 ， 缓 解 医 院 门 、 急 诊 排队 拥堵 的 现象 。 


14.8.5 ”精准 医疗 


大 数据 分 析 技 术 通 过 收集 电子 病历 系统 患者 个 人 的 完整 临床 诊疗 记录 、 同 病 种 相似 患者 的 
临床 诊疗 记录 ,并 结合 患者 的 基因 信息 ,利用 生物 信息 学 分 析 工 具 、 本 体 、 数 据 挖掘 等 大 数据 
分 析 技 术 ， 对 所 收集 的 数据 进行 整合 分 析 ， 以 精准 查找 致 病 病因 ， 形 成 精准 临床 诊断 报告 ， 
为 患者 提供 最 佳 治疗 方案 ， 达 到 治疗 效果 最 大 化 和 副作用 最 小 化 的 目的 。 


14.3.6 成 本 与 疗效 分 析 


以 生存 期 和 生活 质量 为 临床 疗效 评价 指标 , 通过 比较 不 同治 疗 方案 之 间 的 健康 效果 差别 和 
成 本 差别 ， 从 而 为 包括 单 病 种 控 费 、 总 额 控制 等 在 内 的 多 种 支付 方式 提供 支持 , 实现 在 有 效 控 
制 医 疗 费用 的 前 提 下 提供 最 佳 的 临床 诊疗 方案 。 


1437 ”绩效 管理 


通过 大 数据 技术 对 医院 床位 使 用 率 、 财 务 收 支 、 门 /急诊 量 等 医疗 绩效 指标 数据 进行 分 析 ， 
提供 全 方位 的 、 精 细 化 的 、 个 性 化 的 绩效 评价 体系 。 以 美国 为 例 ， 为 减少 再 住院 率 ， 特 地 建立 
了 一 个 模型 来 评估 再 住院 风险 。 部 分 医院 依靠 这 个 模型 ， 预 测 准确 性 可 以 达到 799%6， 减 少 了 
约 30% 的 再 住院 病例 ， 为 医院 和 病人 节省 了 大 量 开支 。 


14.3.8 ERR 


药品 收入 占 比 较 大 、 大 型 医用 设备 检查 治疗 和 医用 耗材 的 收入 占 比 增加 较 快 、 不 合理 就 医 
等 导致 的 医疗 服务 总 量 增加 较 快 等 , 均 是 导致 医院 医疗 费用 不 合理 增长 的 原因 。 通 过 大 数据 技 
术 测 算 各 病 种 诊疗 过 程 中 的 药品 、 检 查 、 检 验 、 手 术 、 护 理 、 治 疗 等 方面 的 合理 费用 及 补偿 水 
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PF, 同时 针对 医疗 费用 控制 的 主要 监测 指标 进行 数据 分 析 和 挖掘, 积极 控制 医院 费用 的 不 合理 
增长 ， 实 现 医 院 精细 化 管理 。 


143.9 医疗 质量 分 析 


医疗 质量 是 评价 医院 医疗 服务 与 管理 整体 水 平 最 重要 的 标准 ,一 直 以 来 都 是 医院 管理 工作 
的 核心 。 利 用 大 数据 分 析 技 术 将 医疗 质量 数据 转换 为 管理 人 员 所 需要 的 指标 信息 , 按照 患者 特 
征 、 历 史 资料 、 图 表 信息 等 为 管理 层 提供 数据 支撑 和 依据 ， 是 医疗 大 数据 重要 应 用 的 体现 。 

此 外 , 医疗 大 数据 和 人 工 智能 在 疾病 发 病 趋势 预测 、 健康 状况 评估 、 患者 需求 与 行为 分 析 、 
心 电 数 据 分 析 与 心 电 智能 诊断 方面 的 应 用 也 将 越 来 越 广 泛 。 








1 4 ,A 人工 智 能 的 医疗 应 用 场景 


“分 级 诊疗 ”被 认为 是 解决 目前 “看 病 难 ”问题 的 最 佳 方案 。 所 谓 “ 分 级 诊疗 ”， 就 是 按 
照 疾病 的 轻重 缓急 及 治疗 的 难 易 程度 进行 分 级 , 不 同 级 别 的 医疗 机 构 承 担 不 同 疾病 的 治疗 。 这 
种 模式 源 自 西方 且 目 前 正在 被 西方 各 国 普及 ， 其 主要 特点 是 “全 科 医 生 ( 家 庭 医生 ) ”和 “ 专 
科 医 生 ” 的 划分 与 分 工 协同 。 分 级 诊疗 面临 的 核心 问题 是 优质 医疗 资源 有 限 。 分 级 诊疗 的 有 效 
实施 特别 需要 大 量 有 能 力 、 可 信赖 的 全 科 医 生来 覆盖 和 满足 大 部 分 人 日 常 医疗 的 需求 。 

既然 好 医生 不 够 是 核心 问题 , 那么 如 何 既 快 又 好 地 建立 起 好 医生 队伍 , 就 成 为 医疗 行业 发 
展 的 根本 。 而 人 工 智能 技术 恰好 非常 适合 优化 和 加 速 这 个 过 程 .医疗 行业 是 一 个 存在 大 量 数据 ， 
目前 又 特别 依靠 专家 经 验 的 行业 。 所 谓 诊断 ， 大 多 是 医生 对 病人 的 各 种 化 验 、 影 像 等 数据 和 信 
息 的 个 人 经 验 处 理 与 判断 。 首先， 人 工 智能 特别 适合 快速 高 效 地 处 理 海量 数据 ， 尤 其 能 够 分 析 
出 人 无 法 察觉 的 数据 差异 ， 而 这 点 差异 可 能 就 决定 了 对 疾病 的 判断 ; 其次, 通过 机 器 学 习 ， 人 
工 智能 可 将 专家 经 验 转 换 为 算法 模型 , 使 得 专家 经 验 实现 低 成 本 复制 , 大 量 的 基层 医疗 机 构 因 
此 可 以 更 方便 地 用 人 工 智能 专家 进行 诊断 ， 这 将 有 效 支持 分 级 诊疗 的 实现 。 

场景 一 : 人 工 智 能 + 家 庭 医生 = 健康 监测 

对 于 大 部 分 国人 而 言 , 拥有 一 个 家 庭 医生 基本 上 是 不 可 能 的 。 而 随 着 亚 健康 、 慢 性 病 的 情 
况 越 来 越 普 遍 , 拥有 了 解 自己 健康 情况 、 能 长 期 提供 治疗 指导 的 家 庭 医生 服务 , 又 显得 越 来 越 
有 必要 。 人 工 智能 技术 对 海量 数据 的 处 理 能 力 能 够 有 效 满足 健康 监测 的 需求 , 尤其 对 于 患 有 慢 
性 病 的 人 群 特别 有 用 ， 可 以 有 效 降低 其 疾病 风险 和 看 病 成 本 。 

过 去 慢 病 管理 主要 靠 病人 自己 , 现在 则 可 以 借助 互联 网 和 人 工 智能 技术 , 将 病人 、 家 属 和 
医生 都 拉 入 慢 病 管理 体系 中 ,为 各 方 都 带 来 了 益处 。 通 过 一 些 智能 化 的 可 穿戴 设备 ,首先 可 以 
让 用 户 更 全 面 地 掌握 病情 , 用 户 能 够 随时 查看 自己 连续 的 数据 记录 和 图 表 统 计 ; 其 次 让 用 户 的 
家 人 更 放心 ,能够 通过 微 信 等 方式 随时 监测 用 户 的 情况 ; 最 后 让 医生 治疗 更 精准 及 时 ,医生 能 
够 更 全 面 、 实 时 地 了 解 病人 的 体征 变化 ， 并 提出 更 有 效 的 保健 或 治疗 方案 。 
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景 二 : 人 工 智能 + 全 科 医 生 = 辅助 诊疗 
分 级 诊疗 体系 的 成 功 建立 , 需要 重点 补充 大 量 全 科 医 生 , 以 满足 广大 群众 中 日 常 病 患 的 处 
理 。 而 目前 我 国 基层 的 医疗 机 构 中 ， 医 生 的 学 历 、 经 验 等 普遍 偏 低 ， 全 科 诊 疗 能 力 明显 不 足 。 
利用 人 工 智能 学 习 和 复制 优秀 医生 的 经 验 , 补充 并 辅助 基层 医生 的 诊疗 工作 , 是 较 快 推动 医疗 
体系 落地 的 好 办 法 。 例 如 ， 某 公司 的 AI 辅 诊 系统 就 是 一 个 借助 人 工 智能 技术 ， 能 够 根据 病人 
症状 描述 快速 给 出 疾病 判断 和 诊疗 建议 的 智能 系统 。 其 工作 原理 主要 包括 三 步 : 


COD 基于 机 器 视觉 和 自然 语言 处 理 技术 ， 学 习 、 理 解 并 归纳 现 有 的 医疗 信息 和 数据 ( 包 
括 医学 文献 书籍 、 诊 疗 指南 和 病例 等 ) ， 自 动 构建 出 “医学 知识 图 谱 ”。 

OD 基于 深度 学 习 技术 ， 系 统 自动 学 习 海量 临床 诊断 病例 ， 构 建 出 “诊断 模型 ”， 实 现 
根据 症状 输入 、 输 出 疾病 判断 和 诊疗 建议 功能 。 

(3) 实际 参与 诊断 ， 对 比 专家 医生 的 诊断 结果 进行 模型 优化 。 


这 类 AT 辅 诊 系统 对 于 缺乏 专家 等 资源 的 基层 医院 特别 有 用 : 一 是 能 帮助 提高 疾病 风险 排 
查 率 , 通过 提供 疾病 的 预测 建议 降低 基层 医生 对 高 危 疾病 漏诊 的 巨大 风险 ; — J A 
案 管理 效率 ,目前 国内 的 病案 一 般 依赖 病案 室 人 力 或 数据 公司 整理 , 要 投入 大 量 的 人 力 和 资金 
准确 率 也 得 不 到 保障 。 人工 智能 可 以 实现 病案 智能 化 管理 ,输出 结构 化 病例 ， 让 医生 从 烦 下 的 
病案 工作 中 解脱 ,提升 诊疗 效率 。 

一 些 企业 的 AT 辅 诊 系统 据说 已 经 能 够 识别 预测 500 多 种 疾病 ,差不多 覆盖 了 大 部 分 科室 ， 
包括 白内障、 青光眼 等 常见 病 和 肺癌 、 宫 颈 癌 等 重大 疾病 。 诊 疗 风险 预测 准确 率 高 达 969%， 
已 达到 甚至 超过 普通 医生 的 水 平 ， 能 够 有 效 补充 和 增强 基层 医生 的 诊疗 能 力 。 一 些 企业 声称 类 
似 系统 已 经 在 100 多 家 三 甲 医院 落地 ， 让 人 工 智能 铺 诊 成 为 高 效 的 “助理 医生 ”。 

场景 = : 人 工 智能 + 专科 医生 = 疾病 入 查 

对 于 专科 医生 ,尤其 是 名 医 来 说 , 海量 需求 带 来 的 高 强度 工作 是 最 头疼 的 问题 。 如 何 能 够 
为 这 类 医生 节约 时 间 是 人 工 智能 最 大 的 价值 。 因此 ,在 一 些 需 要 大 量 数据 处 理 、 重 复 性 和 规律 
性 较 强 的 环节 ， 可 以 借助 人 工 智能 技术 进行 补充 甚至 普 代 。 例 如 ，AI 影像 系统 就 是 以 人 工 知 
能 训练 学 习 海量 的 影像 数据 , 实现 对 特定 疾病 智能 第 查 的 系统 。 该 系统 能 够 有 效 助力 医生 提升 
簿 查 诊断 效率 ， 从 而 提高 早期 患者 的 治 念 率 和 存活 率 。 其 主要 工作 过 程 如 下 


D 把 医疗 传统 影像 系统 里 的 患者 影像 传送 到 AI 影像 系统 中 。 

(2) 对 图 片 进行 预 处 理 ， 包 括 去 掉 片 子 里 拍 到 的 其 他 部 位 、 进 行 3D 化 增强 等 ， 形 成 机 
器 可 识别 的 图 片 。 

GO 将 图 片 放 到 后 台 模 型 中 ， 判 断 该 部 分 是 否 有 病变 ， 标 识 出 病变 位 置 ， 亮 点 越 亮 表示 
病变 风险 系数 越 高 。 

(4) 最 关键 的 一 步 一 一 分辨 到 底 是 炎症 还 是 癌症 ， 除 了 进行 图 像 切 分 和 识别 外 ， 还 可 能 
结合 患 病 位 置 、 大 小 、 周 围 环境 等 其 他 信息 ， 最 终 对 病变 进行 判断 ， 从 而 达到 较 高 的 识别 准确 
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目前 , 该 系统 已 实现 了 对 早期 食管 癌 、 早 期 胃癌 、 早 期 乳腺 癌 、 糖 尿 病 性 视网膜 病变 等 多 
种 重大 疾病 的 识别 和 诊断 , 每 月 可 处 理 上 百 万 张 影像 ， 准 确 率 已 达到 较 高 水 平 (如 食管 癌 达 到 
90%， 糖 网 达到 97%) 。 
国内 已 有 多 家 医院 (包括 中 山大 学 附属 肿瘤 医院 、 广 东 省 第 二 人 民 医 院 、 四 川 大 学 华西 第 
二 医院 和 第 四 医院 等 ) 加 入 了 人 工 智能 医学 影像 联合 实验 室 。 未 来 计划 将 该 系统 整合 到 核磁 共 
振 等 医疗 仪器 中 , 让 病人 检查 完 直 接 出 结果 ,省 去 系统 间 图 像 的 传输 过 程 ， 实 现 更 高 效 的 病症 
ME. 

在 分 级 诊疗 的 体系 中 ， 人 工 智能 确实 可 以 有 效 实现 对 医疗 资源 和 能 力 ( 尤 其 是 基层 ) 的 补 
充 和 强化 ， 从 而 加 快 整个 分 疗 体系 建设 的 完善 。 














14.5 AISHES "E+" 


当然 , 人工 智 能 要 进入 医疗 行业 , 尤其 是 要 承担 部 分 甚至 全 部 的 医生 职责 ， 还 面临 很 多 挑 
战 。 其 中 最 核心 的 问题 ， 也 是 当前 医疗 行业 最 难 建立 的 是 : 信任 ， 尤 其 是 病人 对 医生 的 信任 。 
在 过 去 的 医疗 体系 改革 进程 中 ， 商 业 化 、 市 场 化 等 负面 影响 逐渐 增 大 ， 病 人 对 医生 “ 赚 了 钱 治 
不 好 病 ” 的 问题 越 来 越 耿耿 于 怀 ， 医 患 矛 盾 时 有 发 生 。 往 大 医院 跑 成 为 病人 的 无 奈 选 择 ， 因 为 
除了 “名 院 名 医 ” 的 招牌 外 ,没有 更 好 的 信任 建立 和 维护 的 手段 。 人 工 智能 要 在 这 个 信用 不 太 
充分 的 行业 获得 患者 、 医 生 乃 至 监管 部 门 的 信任 ,可 以 说 非常 困难 , 但 这 也 是 必 经 之 路 。 推 动 
信任 建立 ， 至 少 有 4 个 方面 值得 研究 探索 。 


一 是 技术 信任 。 人 工 智能 在 医疗 行业 的 应 用 需要 建立 一 系列 的 技术 性 能 指标 体系 , 并 重点 
明确 正式 商用 的 指标 水 平 要 求 , 从 而 确保 人 工 智能 达到 甚至 超过 人 类 医生 的 基准 要 求 ,比如 疾 
病 识别 的 敏感 度 、 特 异 度 、 准 确 率 等 。 

二 是 职责 信任 。 人 工 智能 使 得 传统 人 类 医生 的 工作 部 分 被 智能 机 器 接替 , 那么 随 之 而 来 的 
问题 是 , 这 部 分 工作 的 质量 和 出 错 的 风险 应 该 由 谁 负 责 ? 是 使 用 人 工 智能 的 医生 、 医 院 , 还 是 
人 工 智能 供应 商 ? 这 种 根据 具体 情况 而 有 所 差异 的 责任 归属 容易 让 人 产生 模糊 感 。 因此 , 需要 
重点 明确 责任 归属 的 原则 ， 以 打消 病人 对 “出 了 事 找 不 到 人 ”的 顾虑 。 比 如 ， 在 有 付费 交易 的 
情况 下 ， 可 按 直接 发 生 交 易 的 双方 确认 责任 主体 。 病 人 付费 给 医院 得 到 治疗 , 用 了 院 方 提供 的 
人 工 智能 服务 ， 出 现 问 题 时 应 由 院 方 对 病人 全 权 负 责 。 

三 是 隐私 信任 。 病 人 采用 人 工 智能 诊疗 服务 ， 需 要 提供 大 量 的 个 人 健康 医疗 信息 。 这 些 
息 大 多 私密 性 较 高 , 一 旦 泄露 会 对 个 人 声 en eer 
内 。 因 此 ， 应 用 人 工 智能 进行 诊疗 需要 与 病人 签订 相关 的 数据 隐私 保密 协议 ,让 病人 放心 。 

如 协议 中 可 明确 规定 ， 治 疗 期 间 所 采集 的 个 人 数据 ， 未 经 病人 同意 不 得 用 作 其 他 用 途 等 。 

四 是 情感 信任 。 疾病 治疗 并 非 仅 是 生理 治疗 , 心理 、 情 感 的 疏导 在 病人 的 整个 治疗 过 程 中 
也 非常 重要 。 而 目前 由 于 医 患 资源 的 不 匹配 ， 医 生 对 病人 很 少 会 进行 有 效 的 心理 沟通 和 琉 导 ， 
医 患 之 间 难 以 建立 情感 信任 。 而 人 工 智能 借助 对 病人 个 人 情况 的 连续 记录 和 洞察 , 有 望 提供 个 
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性 化 辅 诊 和 陪护 服务 ， 从 而 成 为 医 患 情感 信任 建立 的 有 益 补充 。 因 此 ， 对 于 医疗 行业 而 言 ， 推 
动情 感 机 器 人 发 展 也 是 未 来 的 一 大 重要 方向 。 

希望 未 来 的 某 一 天 ， 我 们 每 个 人 都 能 拥有 一 个 值得 信赖 的 专属 “医生 ”。 在 它 的 帮助 下 ， 
病人 不 再 需要 挤 破 脑袋 寻找 名 医 , 医生 也 不 必 心 力 交 阅 地 加 班 治 病 。 如 果 能 进一步 打破 机 构 间 
数据 的 壁垒 ， 更 广泛 有 效 地 训练 这 个 人 工 智 能 “医生 ”的 话 ， 相 信 这 一 天 不 会 太 远 。 


14.6 医院 大 数据 


当前 , 我 们 正 处 于 一 个 数据 爆炸 性 增长 的 时 代 , 各 类 信息 系统 在 医疗 卫生 机 构 的 广泛 应 用 
以 及 医疗 设备 和 仪器 的 逐步 数字 化 使 得 医院 积累 了 更 多 的 数据 资源 , 这 些 数据 资源 是 非常 宝贵 
的 医疗 卫生 信息 ， 对 于 疾病 的 诊断 、 治 疗 、 诊 疗 费用 的 控制 等 都 是 非常 有 价值 的 。 如 何在 大 数 
据 的 趋势 下 做 好 医疗 卫生 信息 化 建设 ， 是 值得 我 们 去 探索 的 问题 。 

就 现在 来 说 ,大 数据 在 医疗 行业 的 应 用 情况 ,国外 比 国内 要 多 一 些 。 国 外 一 些 医疗 机 构 利 
用 大 数据 提供 个 性 化 诊疗 、 个 性 化 治疗 、 研 制 新 药 和 预测 分 析 等 。 而 国内 大 数据 的 发 展 ， 目 前 
来 看 大 部 分 都 是 由 一 些 公司 自己 进行 开发 的 。 例 如 ， 百 度 开 发 的 疾病 预测 平台 ， 利 用 用 户 的 搜 
索 数 据 和 位 置 数据 构建 了 疾病 预测 模型 。 

从 现在 的 技术 和 需求 来 看 ， 大 数据 的 发 展 趋势 分 为 数据 收集 、 数 据 预测 、 提 供 决策 支持 分 
析 、 数 据 的 价值 提取 4 个 阶段 。 就 医院 而 言 ， 在 这 个 数据 发 展 阶段 ， 可 以 承担 多 重 角色 : 既 可 
以 是 原始 数据 供应 者 (主要 是 内 部 数据 、 结 构 化 数据 ) ， 也 可 以 是 数据 产业 投资 者 、 数 据 价值 
消费 者 。 目 前 ,医疗 大 数据 的 发 展 正 处 于 数据 集成 阶段 。 医院 对 于 数据 的 收集 和 管理 主要 集中 
在 结构 化 临床 业务 数据 、 影像 数据 与 病历 扫描 图 像 数 据 、 科 研 文献 资料 数据 等 。 像 医疗 设备 日 
志 数据 、 生 物 信息 数据 、 基 因数 据 、 人 员 情 绪 数据 和 行为 数据 等 都 还 未 进行 收集 和 产生 。 

大 数据 趋势 下 ， 建 设 医疗 信息 化 的 几 个 关键 要 点 如 下 。 


e ”加 强 数据 集成 


中 国医 院 信息 化 起 步 相 对 较 晚 ,很 多 医院 没有 从 宏观 高 度 统筹 规划 和 系统 设计 的 信息 化 工 
作 , 没有 共享 信息 平台 , 更 没有 国家 规范 与 标准 ， 各 开发 商 提供 的 所 谓 点 对 点 数据 接口 也 形 形 
色色 。 异 构 系统 是 医院 信息 系统 发 展 的 必然 形态 。 异 构 数据 库 系统 的 目标 在 于 实现 不 同 数据 库 
之 间 的 数据 信息 资源 、 硬 件 设备 资源 和 人 力 资源 的 合并 和 共享 。 随 着 信息 化 技术 的 发 展 ， 医 院 
的 信息 化 已 经 从 一 体 化 发 展 阶段 到 入 了 集成 化 阶段 。 集 成 化 作为 当前 医院 信息 化 建设 的 关键 ， 
是 医院 信息 化 建设 的 主要 内 容 , 在 更 大 层面 上 体现 着 医院 信息 化 的 效益 , 更 加 考验 医院 和 信息 
中 心 的 建设 能 力 。 医院 信息 化 的 集成 工作 不 单纯 是 把 电子 病历 集成 化 , 其 他 一 些 非 电 子 病历 的 
数据 也 需要 做 集成 化 处 理 。 只 有 打通 各 个 系统 的 数据 , 才能 为 以 后 进行 大 数据 分 析 打 下 扎实 的 
基础 。 
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人 工 智能 与 大 数据 技术 导论 

e ”提升 数据 质量 

医院 信息 系统 每 天 采集 、 传输、 存储 和 处 理 大 量 的 数字 医疗 数据 ,这些 医疗 数据 支撑 着 整 
个 信息 系统 的 运行 , 成 为 医院 管理 和 医疗 业务 工作 的 基础 。 医疗 数据 质量 的 高 低 直 接 影响 和 决 
定 着 医疗 数据 和 统计 信息 的 使 用 价值 。 提 升 数 据 质量 方面 ， 首 先 要 保证 数据 的 完整 性 ,对 电子 
病历 进行 结构 化 处 理 ， 更 有 效 地 进行 数据 的 收集 。 同时， 也 要 个 性 化 地 发 展 ， 专 科 电 子 病历 作 
为 比较 火热 的 领域 , 为 医院 的 大 数据 科研 打下 了 非常 好 的 基础 。 在 数据 的 可 用 性 方面 ,数据 质 
量 一 定 要 有 标准 可 以 遵循 , 医院 对 于 数据 的 质量 要 有 一 个 监控 的 过 程 。 医生 利用 系统 查找 出 来 
的 数据 是 三 年 以 前 的 , 这 样 的 数据 利用 起 来 的 话 肯定 会 出 问题 的 。 在 遵循 标准 的 同时 ,数据 采 
集 的 过 程 中 也 要 进行 规范 化 和 标准 化 的 管理 。 

”提高 数据 安全 

医疗 数据 和 应 用 呈现 指数 级 的 增长 趋势 ,也 给 动态 数据 安全 监控 和 隐私 保护 带 来 了 极 大 的 
挑战 。 在 2017 年 6 月， 国务 院 发 布 了 促进 健康 医疗 大 数据 发 展 行动 纲要 的 指导 意见 ， 将 健康 
医疗 大 数据 作为 国家 重要 的 基础 性 战略 资源 。 国家 对 于 健康 医疗 大 数据 的 安全 十 分 重视 , “ 规 
WAF, 安全 可 控 ” 作 为 “意见 ”基本 原则 中 最 重要 的 一 项 。 健康 医疗 大 数据 应 警惕 数据 安全 ， 
保护 患者 隐私 ， 才 能 真正 实现 数据 融合 共享 、 开 放 应 用 。 


e ”推进 大 数据 应 用 的 三 大 维度 


在 大 数据 时 代 的 发 展 当中 , 医院 的 信息 管理 方式 出 现 了 非常 明显 的 转变 , 其 中 的 信息 数据 
已 经 呈现 出 了 非常 显著 的 特征 。 但 是 , 大 数据 距离 临床 业务 发 展 成 熟 仍 然 是 有 距离 的 ,目前 科 
研 还 是 大 数据 应 用 的 主要 战场 。 要 更 好 地 推进 大 数据 的 发 展 ,首先 ， 要 扩大 医疗 信息 化 的 覆盖 
面 ， 其 次 ， 信 息 化 在 一 个 领域 中 要 有 深入 的 应 用 ， 比 如 高 值 耗材 要 深入 到 床 旁 、 手 术 台 旁 等 ; 
最 后 ， 医 院 要 利用 信息 化 进行 互联 互通 ， 产 生 协 同 效应 。 





14.7 机 器 学 习 在 医疗 行业 中 的 应 用 实例 分 析 


我 们 来 看 一 个 实际 例子 。 如 图 14-3 所 示 ， 日 本 横滨 市 从 2008 年 起 开始 构建 “119 紧急 电 
话 对 紧急 程度 /病情 严重 程度 的 识别 (call triage) ”预测 模型 系统 。 横 滨 市 的 call triage 指 的 是 
从 通话 内 容 中 预测 拨打 119 电话 的 患者 病情 的 严重 程度 ,根据 具体 症状 来 调整 急救 人 员 的 种 类 


和 规模 。 








因 








为 现在 增加 急救 人 员 的 人 手 存在 困难 ， 如 何 有 效 地 安排 就 显得 非常 重要 。 这 时 ， 最 








重要 的 一 点 是 “不 能 把 重症 的 患者 判断 为 轻 症 ”， 哪 怕 允 许 “ 把 轻 症 的 患者 判断 为 重症 ”， 也 


绝 不 允许 系统 把 重症 患者 判断 为 轻 症 。 也 正 因为 如 此 ， 系 统 最 初 的 预测 精准 度 还 不 到 30%。 
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一 代 POE 
Logistic 回 归 分 析 WEA 


将 119 通 话 时 的 
各 项 内 容 作为 变量 ， 
构建 预测 模型 











预测 精准 度 : = 
30% 以 下 支持 向 量 机 (SVN) 


第 二 代 潜在 变量 由 系统 采用 统计 插 
贝 叶 斯 网 络 法 从 观测 变量 中 自动 导出 


预测 精准 度 : 
















F (观察 变量 》 A 
现 出 来 的 内 容 。 使 用 从 观测 变 

量 中 导出 的 潜在 变量 构建 预测 
模型 

预测 精准 度 : 
30%~50% 


的 Van 型 ， 
实际 的 预测 由 多 4 个 预测 模型 按 
照 “ 委 员 会 制度 ”共同 进行 





预测 精准 度 : 
80% 以 上 


图 14-3 ”横滨 市 急救 系统 实例 


基于 30 万 份 诊断 数据 , 横滨 市 构筑 了 对 病情 严重 程度 进行 预测 的 模型 。 为 了 提高 准确 度 ， 
始终 在 更 新 机 器 学 习 的 方法 。 从 最 初 的 “logistic 回归 ”分 析 到 “ 贝 叶 斯 网 络 ”“ 支 持 向 量 机 
(SVM) ”， 再 到 现在 的 “随机 森林 ”， 随 着 每 一 次 方法 的 改进 ， 系 统 的 预测 精准 度 都 有 所 
提升 ， 现 在 已 经 达到 80% 以 上 。 有 意思 的 一 点 是 ， 比 起 在 构建 预测 模型 时 参考 了 医生 意见 的 
贝 叶 斯 网 络 ， 没 有 参考 医生 意见 的 SVM 及 随机 森林 的 预测 精确 度 反而 更 高 。“ 电 脑 竟然 能 比 
医生 更 准确 地 判断 患者 病情 的 严重 程度 ”， 这 对 一 般 人 来 说 可 能 在 感情 上 很 难 接受 。 

通过 在 各 个 领域 不 断 尝试 机 器 学 习 并 评估 其 成 效 , 寻找 可 以 应 用 的 新 领域 , 这 种 态度 是 非 
常 重要 的 。 制药 公司 过 去 依靠 的 是 实验 和 建 模 方式 , 而 现在 它们 开始 利用 机 器 学 习 进行 新 药 研 
发 。2014 E, 日 本 的 非 营利 组 织 (Non-Profit Organization, NPO)“ 并 列 生物 信息 处 理 Initiative” 
举办 了 “用 电脑 创造 制药 原料 ”大 赛 。 在 这 场 大 赛 中 ， 引 进 了 机 器 学 习 的 风险 企业 “信息 数理 
生物 ”公司 拔 得 了 头筹 。 比 赛 的 主题 是 从 220 万 种 化 合 物 中 寻找 出 拥有 某 种 疗效 的 、 可 用 于 制 
药 的 化 合 物 。 在 这 里 需要 找 出 损伤 蛋白 质 活性 的 化 合 物 ， 这 是 造成 疾病 的 原因 。 目 前 共有 两 种 
方法 可 以 找 出 这 种 化 合 物 : 进行 真实 的 实验 ; @ 通 过 电脑 建 模 的 方式 再 现 蛋 白质 和 化 合 物 的 
构造 ， 并 据 此 进行 模拟 实验 。 但 是 ， 化 合 物 共有 220 万 种 ， 如 果 对 每 一 种 都 进行 实验 或 建 模 ， 
从 成 本 到 时 间 上 都 很 难 做 到 。 该 公司 以 “结构 相似 的 化 合 物 ， 其 作用 也 相似 ”这 一 生物 规则 为 
线索 ， 让 电脑 “针对 现 有 839 医药 品 的 结构 进行 机 器 学 习 ， 寻 找 结构 相似 的 化 合 物 ”。 实 践 证 
明 ， 利 用 这 种 方法 确实 找到 了 有 望 作为 药品 发 挥 作用 的 化 合 物 。 

在 素材 和 材料 领域 也 能 看 到 同样 的 探索 。 在 “信息 材料 学 ”方面 , 现在 正 通 过 机 器 学 习 寻 
找 可 用 于 制造 超导体 及 太阳 能 电池 材料 、 锂 离子 电池 材料 的 化 合 物 。 
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我 国 公安 信息 化 建设 发 展 迅猛 ,公安 市 场 大 规模 的 信息 化 和 装备 投资 产生 了 海量 的 结构 化 
和 非 结构 化 数据 ， 包 括 轨迹 信息 、 工 作 信息 、 多 媒体 信息 等 。 据 不 完全 统计 ， 全 国 公安 机 关 掌 
握 的 数据 资源 已 达 数 百 类 、 上 万 亿 条 、EB 级 的 大 数据 规模 。 比 如 ， 一 个 城市 一 天 产生 的 交通 
摄像 头 视频 ， 靠 人 可 能 100 年 都 看 不 完 (可 惜 的 是 , 这些 宝贵 的 数据 大 多 数 还 没有 经 过 深入 分 
析 ， 就 被 删除 了 ) 。 同 时 ， 数 据 产 生 汇集 的 速度 越 来 越 快 ， 数 据 呈 阶 梯 式 增长 。 目 前 ， 公 安 数 
据 的 年 增长 率 超过 50%， 增 长 速度 远 超 以 往 任何 时 期 。 公 安 数 据 既 有 传统 的 结构 化 数据 ， 也 
有 大 量 文档 、 图 片 、 视 频 、 栅 格 、 矢 量 、 文 本 等 非 结构 化 数据 ， 数 据 结构 、 存 储 方式 多 种 多 样 。 
公安 数据 中 蕴藏 着 人 、 事 、 物 、 组 织 和 案件 等 丰富 的 信息 ， 充 分 利用 这 些 信息 ， 挖 掘 海量 数据 
背后 隐藏 的 关联 关系 ,对 于 维护 社会 大 局 稳定 、 预 防 和 打击 犯罪 、 辅 助 指 挥 决策 都 具有 重要 的 
价值 。 

各 级 公安 机 关 快 速 积累 并 不 断 增长 的 信息 数据 已 成 为 继 警 力 资源 装备 资源 之 后 的 新 一 类 
核心 资源 。 如 何 有 效 利用 海量 信息 并 挖掘 内 在 更 大 的 价值 ， 成 为 提升 公安 实战 应 用 能 力 、 建 立 
立体 化 综合 防 控 体系 面临 的 重大 难题 。 公 安信 息 化 “十 三 五 ”规划 已 将 云 计 算 、 大 数据 、 人 工 
智能 等 新 技术 应 用 作为 优化 基础 性 技术 设施 、 提 升 信息 化 支撑 能 力 的 重要 建设 内 容 。 























公安 大 数据 的 特点 


大 数据 是 以 容量 大 、 类 型 多 、 存 取 速 度 快 、 应 用 价值 高 为 主要 特征 的 数据 集合 ， 正 快速 发 
展 为 对 数据 巨大 、 来 源 分 散 、 格 式 多 样 的 数据 进行 采集 、 存 储 和 关联 分 析 ， 从 中 发 现 新 知识 、 
创造 新 价值 、 提 升 新 能 力 的 新 一 代 信息 计算 和 服务 业态 。 

公安 大 数据 的 特点 也 可 以 用 4 个 V 来 概括 : 第 一 ，Volume， 数 据 体 量 巨大 ， 从 TB 级 别 
跃升 到 PB 级 别 ;第 二 ，Variety， 数 据 类 型 繁多 ， 包 括 网 络 日 志 、 视 频 、 图 片 、 文 本 、 音 频 、 
地 理 位 置信 息 等 ， 种 类 混杂 ， 处 理 难 度 高 ;第 三 ，Value， 价 值 密度 低 ， 以 视频 为 例 ， 连 续 不 
间断 的 监控 过 程 中 ， 可 能 有 用 的 数据 仅 有 一 两 秒 ; 第 四 ，Velocity， 处 理 速度 快 ， 各 类 传感器 、 
视频 监控 产生 的 高 速 数据 流 需要 快速 写 入 。 在 数据 量 非常 庞大 的 情况 下 , 也 能 够 做 到 数据 的 实 
时 处 理 。 最 后 这 一 点 和 传统 的 数据 挖掘 技术 有 着 本 质 的 不 同 。 这 4 个 V 对 应 大 数据 领域 核心 
的 4 类 技术 , 即 大 数据 存储 、 大 数据 管理 、 大 数据 挖掘 和 大 数据 计算 。 随 着 近年 来 技术 的 发 展 ， 
为 公安 大 数据 的 处 理 提供 了 可 能 。 
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另外 ， 公 安 大 数据 还 有 3 s: 一 是 超 复杂 性 (Super Complexity) ， 公 安 大 数 据 涉及 
广 、 种 类 多 样 、 信 息 维度 高 、 宛 余 度 大 ， 分 析 处 理 难 度 大 ;二 是 超 保密 性 (Super Secrecy) ， 
公安 数据 直接 关乎 人 民 和 群众 的 安全 ， 需 要 更 安全 高 效 的 保障 ; 三 是 强 实时 性 (Sooner) ， 机 会 
稍 纵 即 逝 ， 处 理 数 据 速度 越 快 ， 打 击 指挥 链 越 短 ， 越 能 更 快 地 抢占 先 机 ， 赢 得 胜利 。 


15.2 mmm 


公安 大 数据 的 首要 任务 是 构建 基于 全 警 采集 、 全 警 共 享 的 统一 大 数据 平台 , 为 实现 智慧 警 
务 提 供 核心 支撑 能 力 。 然 后 应 用 机 器 学 习 等 人 工 智能 技术 , 对 数据 平台 上 的 数据 进行 智能 建 模 
分 析 ， 构 建 犯罪 预测 、 警 务 监督 、 立 体 防 护 、 精 确 警 务 等 公安 大 数据 人 工 智能 应 用 。 公 安 大 数 
据 建设 流程 如 图 15-1 所 示 。 














社会 单位 其 他 ”内 部 。” 厅 部 级 gep 
接 入 数据 社会 数据 其 他 数据 系统 数据 部 门 数据 大 规模 计算 实时 计算 流 式 计算 清洗 Ra XE 转换 







打通 公安 数据 采集 、 加 工 、 分 析 全 链条 


En a 
关联 分 析 犯罪 预测 警 务 监督 立 休 防 护 精确 警 务 决策 树 ” 聚 类 ”神经 网 络 支持 向 量 机 E pang 报表 Pas 


图 15-1 公安 大 数据 建设 流程 


CD 数据 采集 模块 是 通过 公安 内 部 的 数据 接口 实现 与 网 综 平台 、 警 综 平台 、PGIS 平台 、 
情报 综合 平台 、 治 安防 控 平 台 、 三 台 合 一 接 处 警 系统 、 监 所 系统 、 出 入 境 系统 、 卡 口 数 据 库 、 
视频 数据 库 以 及 其 他 相关 警 种 部 门 业务 系统 的 数据 交换 。 通 过 公共 信息 共享 交换 平台 接 入 社会 
外 部 单位 的 业务 系统 数据 ， 如 民航 铁路 订 票 系统 、 酒 店 旅店 住宿 系统 、 公 路 客运 系统 、 通 信 运 
营 商 系统 、 工 商 税务 系统 、 民 政司 法 系统 、 社 交 媒体 系统 、 电 商 系统 、 教 育 宗教 等 系统 的 外 部 
数据 。 通 过 数据 资源 共享 机 制 为 各 类 情报 应 用 系统 提供 数据 资源 支持 。 

QD 计算 引擎 模块 提供 批 处 理 和 流 处 理 引擎 ， 实 现 对 离线 批 处 理 的 复杂 处 理 和 对 流 式 数 
据 的 高 速 处 理 ， 为 警 务 分 析 提供 实时 / 准 实 时 的 快速 处 理 能 力 ， 通 过 分 布 式 文件 系统 技术 实现 
对 复杂 多 结构 数据 的 存储 、 管 理 与 分 析 ， 支 持 传统 的 Schema 数据 、Schema-Free 数据 和 视频 |/ 
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音频 /图 像 数 据 的 存储 、 分 析 与 管理 。 

(3) 数据 加 工整 合 模块 提供 社会 数据 、 公 安 内 部 数据 的 清洗 、 加 工 、 关 联 和 数据 治理 功 
能 ， 形 成 基础 数据 库 以 及 各 类 主题 库 和 资源 应 用 库 。 

(4) 数据 管控 模块 : 建立 各 类 数据 资源 的 安全 管控 机 制 ， 包 括 访问 控制 、 审 计 、 可 用 不 
可 见 。 
(5) 数据 服务 /可 视 化 模块 : 提供 数据 资源 的 统一 共享 和 服务 管理 功能 ， 包 括 服务 接口 、 
接口 配置 、 服 务 资源 目录 和 服务 资源 监控 等 功能 。 还 提供 数据 目录 、 综 合 查询 、 数 据 报表 和 基 
于 PGIS 的 数据 可 视 化 功能 。 

(6) 机 器 学 习 模 块 : 提供 机 器 学 习 的 各 类 算法 和 框架 。 

CD 数据 应 用 模块 : 提供 数据 比 对 、 趋 势 分 析 、 异 常 分 析 、 相 关 性 分 析 等 数据 挖掘 分 析 
功能 。 

公安 大 数据 管理 平台 如 图 15-2 所 示 。 
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图 15-2 公安 大 数据 管理 平台 


15.3 公安 大 数据 管理 平台 


当前 , 经 过 金盾 工程 建设 与 应 用 积累 ,公安 已 经 沉淀 了 海量 数据 资源 ,建立 了 多 个 实战 业 
务 应 用 系统 ， 以 资源 整合 共享 理念 为 基础 ， 建 立 了 资源 服务 平台 ， 形 成 了 公安 八大 资源 库 。 由 
于 业务 需求 和 业务 理解 不 同 , 各 业务 应 用 系统 中 存在 同名 数据 项 实际 业务 含义 不 同 , 同业 务 仿 
义 的 数据 项 名 称 不 同 ， 同 义 数据 项 的 数据 类 型 、 长 度 等 格式 定义 存在 差异 等 情况 , 造成 公安 信 
息 资源 共享 、 关 联 应 用 的 困难 。 公 安 大 数 据 管 理 平台 首先 提供 大 数据 建 模 平台 ， 如 图 15-3 所 
示 。 建 模 平台 制定 统一 的 公安 信息 资源 目录 体系 和 公安 元 数据 标准 ， 基 于 业务 属性 开展 人 员 、 
物品 、 案 件 、 地 址 、 组 织 、 服 务 标识 等 主题 域 模型 的 细 化 设计 ， 对 数据 进行 科学 、 合 理 、 标 准 
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的 规划 。 然 后 ， 公 安 大 数 据 管理 平台 提供 大 数据 交换 共享 平台 ， 从 源头 上 规范 数据 采集 、 整 合 
和 共享 服务 ， 整 合 所 有 公安 数据 到 统一 的 信息 资源 服务 平台 上 《如 图 15-2 所 示 ) ， 建 立 各 类 
主题 库 ， 构 建安 全 管控 机 制 ， 实 现 统一 的 公安 大 数据 体系 ， 这 是 公安 大 数据 发 展 的 基石 。 在 此 
基础 上 ， 通 过 公安 数据 服务 为 各 类 公安 大 数据 智能 化 应 用 提供 数据 。 


互联 网 数据 源 


图 15-3 公安 大 数据 管理 平台 4 个 核心 组 件 





153.1 公安 大 数据 建 模 


依托 大 数据 建 模 平台 CLE 15-3) ， 基 于 元 数据 技术 ， 实 现 结构 化 数据 、 非 结构 化 数据 
的 一 体 化 管理 , 涵盖 数据 模型 、 数 据 加 工 流程 模型 、 数 据 质量 管控 等 方面 , 具体 包括 以 下 几 种 。 
€ ”元 数据 管理 : 通过 统一 的 平台 元 数据 管控 ,实现 对 平台 各 类 数据 标准 、 定 义 、 关 系 及 
规则 等 的 集中 管理 和 统一 服务 ， 确 保平 台数 据 运行 的 规范 化 、 标 准 化 、 可 视 化 。 
© ”数据 质量 管理 : 通过 标准 化 的 规则 管理 和 调度 控制 ， 建 立 各 类 数据 称 核 手段 、 数 据 质 
量 分 析 体系 ， 确 保平 台数 据 的 一 致 性 、 完 整 性 和 合 规 性 。 
e ”提供 数据 的 加 工 流 程 管控 体系 ， 采 用 体系 化 、 标 准 、 可 重复 的 监管 机 制 和 执行 流程 ， 
保证 数据 加 工 的 统一 及 数据 流程 的 透明 性 , 保障 数据 质量 及 数据 的 可 用 性 ,实现 管理 
数据 从 采集 、 加 工 、 存 储 、 应 用 、 归 档 到 最 终 删除 等 一 系列 处 理 环节 中 的 可 视 化 、 配 
置 化 、 易 调控 ， 完成 端 到 端的 数据 透明 管控 。 利用 业务 流程 驱动 机 制 ， 使 各 个 数据 处 
理 节 点 的 控制 要 素 有 机 实现 链 式 触发 , 提升 平台 数据 管控 的 运营 能 力 和 效率 ,实现 平 
台 与 内 部 系统 及 外 部 环境 的 信息 数据 共享 。 
e FEE: 为 不 同 的 数据 模型 提供 不 同 的 存储 配置 ， 从 源头 上 实现 “可 用 不 可 见 ” 的 
安全 管控 机 制 。 
公安 大 数据 建 模 平台 建设 引入 了 数据 治理 的 核心 思想 和 技术 ， 从 制度 、 标 准 、 监 控 、 流 程 
几 个 方面 提升 数据 信息 管理 能 力 , 解决 数据 标准 问题 、 数 据 质 量 问 题 、 元 数据 管理 问题 和 数据 
服务 问题 。 
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15.32 


公安 大 数据 汇集 


依托 大 数据 交换 和 共享 平台 OLEI 15-3) ， 构 建 端 到 端 、 可 视 化 的 数据 采集 汇集 和 整合 
加 工 体系 。 通 过 公安 内 部 数据 接口 实现 与 网 综 平台 、 警 综 平 台 、PGIS 平台 、 情 报 综合 平台 、 
治安 防 控 平 台 、 三 台 合 一 接 处 警 系统 、 监 所 系统 、 出 入 境 系统 、 卡 口 数据 库 、 视 频数 据 库 以 及 
其 他 相关 警 种 部 门 业务 系统 的 数据 交换 。 另 一 方面 , 通过 公共 信息 共享 交换 平台 接 入 社会 外 部 
单位 的 业务 系统 数据 ， 如 民航 铁路 订 票 系统 、 酒 店 旅店 住宿 系统 、 公 路 客运 系统 、 通 信和 运营 商 
系统 、 工 商 税务 系统 、 民 政司 法 系统 、 社 交 媒 体系 统 、 电 商 系统 、 教 育 宗教 等 系统 的 外 部 数据 。 
通过 数据 资源 共享 机 制 为 各 类 情报 应 用 系统 提供 数据 资源 支持 。 





15.3.3 


公安 





公安 大 数据 服务 
大 数据 平台 对 外 发 挥 价值 的 核心 是 提供 种 类 丰富 、 类 型 多 样 的 服务 接口 和 服务 能 力 。 


从 服务 类 型 来 看 ， 可 分 为 通用 类 服务 、 研 判 类 服务 和 智能 类 服务 ， 具 体 说 明 如 下 。 


通用 类 服务 : 在 大 数据 平台 提供 的 数据 资源 基础 上 ,结合 分 布 式 计算 、 可 视 化 分 析 和 
展现 等 技术 ， 可 实现 综合 查询 、 搜 索引 擎 、 数 据 比 对 、 布 控 预 警 、 分 类 统计 等 常用 功 
能 ， 以 及 趋势 分 析 、 异 常 分 析 、 相 关 性 分 析 等 挖 气功 能 。 

研判 类 服务 : 基于 大 数据 分 析 挖 据 ， 实 现 各 类 战 法 集 市 、 积 分 预警 模型 、 全 要 素 分 析 
工具 、 社 交 网 络 分 析 、 隐 性 重点 人 挖掘、 治安 态势 分 析 等 综合 情报 研判 功能 。 

智能 类 服务 : 综合 情报 研判 功能 ,实现 案件 多 维 分 析 、 人 流 激增 预警 、 犯 罪 预测 模型 、 
人 员 智 能 画像 、 涉 恐 系 数 分 析 、 人 员 亲 密度 模型 分 析 等 功能 。 


大 数据 服务 平台 还 提供 可 视 化 服务 。 借 助 可 视 化 和 人 工 操作 将 数据 进行 关联 分 析 , 并 做 出 
完整 的 分 析 图 表 。 图 表 中 包含 所 有 事件 的 相关 信息 ， 也 完整 展示 数据 链 走 向 。 


15.5 公安 大 数据 挖掘 分 析 


数据 挖掘 是 从 数据 中 自动 地 抽取 出 模式 、 关 联 、 变 化 、 异 常 和 有 意义 的 结构 。 根 据 数据 挖 
掘 的 任务 可 分 为 多 种 类 型 ， 比 较 典 型 的 有 关联 分 析 、 分 类 分 析 、 聚 类 分 析 、 序 列 分 析 等 。 
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关联 分 析 : 在 关系 数据 中 ， 发 现存 在 于 项 目 集 或 对 象 集 之 间 的 关联 规则 ， 包 括 关联 、 
相关 性 、 因 果 结 构 或 频繁 出 现 的 模式 。 常 用 的 关联 分 析 算法 有 Apriori 算法 及 它 的 各 
种 改进 或 扩展 算法 。 

分 类 分 析 : 分 类 在 数据 挖 据 中 属于 有 监督 式 学 习 的 范畴 。 分 类 分 析 是 根据 数据 的 特征 
为 每 个 类 建立 一 个 模型 ,根据 数据 的 属性 将 数据 分 配 到 不 同 的 组 中 。 常用 的 分 类 算法 
有 决策 树 、 神 经 网 络 、 贝 叶 斯 分 类 等 。 

聚 类 分 析 : 按照 菜 种 相近 程度 度量 方法 将 数据 分 成 互 不 相同 的 一 些 分 组 , 实现 每 一 聚 
类 内 部 的 相似 性 很 高 、 各 聚 类 之 间 的 相似 性 很 低 。 常 用 的 聚 类 算法 有 K 均值 、 最 近 
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邻 、 神 经 网 络 等 。 

e 预测 模型 分 析 : 从 数据 库 或 数据 仓库 中 已 知 的 数据 推测 未 知 的 数据 或 对 象 集中 某 些 必 
性 的 值 分 布 。 建 立 预测 模型 的 常用 方法 包括 回归 分 析 、 线 型 模型 、 支 持 矢量 集 、 决 策 
树 预测 、 遗 传 算法 、 随 机 森林 算法 等 。 

@ RAGS 文本 是 无 结构 或 半 结 构 化 的 数据 ， 文 本 挖 气 是 从 文本 数据 中 推导 出 模式 ， 
其 过 程 是 通过 文本 分 析 、 特 征 提取 、 模 式 分 析 的 过 程 来 实现 的 。 主要 技术 包括 文本 结 
构 分 析 、 文 本 特征 提取 、 文 本 检索 、 文 本 自动 分 类 / 聚 类 、 文 档 自动 摘要 、 话 题 检测 
与 追踪 、 文 本 过 滤 、 文 本 情感 分 析 等 。 


15.5 公安 大 数据 AI 应 用 


涉 恐 系数 应 用 以 部 级 信息 资源 服务 平台 汇集 的 数 百 亿 条 数据 作为 数据 基础 ,应 用 机 器 学 习 
等 大 数据 技术 ,提炼 反恐 业务 特征 的 数据 项 ,学 习 已 掌握 的 涉 巩 人员 数据 ， 提 出 人 员 刻 画 六 维 
模型 ， 即 从 身份 特质 、 行 为 偏好 、 关 系 网 络 、 不 良 记录 、 时 空 轨迹 、 经 济 状况 六 个 维度 描述 和 
刻画 一 个 人 。 每 一 个 维度 上 又 包含 大 量具 体 的 特征 。 在 此 基础 上 , 构建 形成 涉 恐 人 员 标 签 体系 
和 涉 恐 系数 综合 计算 模型 , 通过 大 数据 分 析 处 理 实现 对 千 万 级 目标 群体 的 涉 恐 概率 计算 。 某 市 
公安 局 根据 涉 恐 系数 计算 结果 ， 对 23 人 进行 落地 核查 和 跟 进 管控 ， 核 查 出 涉 恐 人 员 7 A, W 
得 了 较 好 的 预警 效果 。 

犯罪 预测 应 用 利用 大 数据 技术 ， 自 动 抽 取 警 综 平台 内 案 事 件 、 人 口 、 地 理 、 天 气 、 房 价 等 
数据 进行 智能 建 模 分 析 , 预测 当天 辖区 案件 的 高 发 区 域 及 发 案 概 率 , 把 需要 重点 防 控 的 区 域 以 
简明 扼要 的 图 形 界 面 直观 地 凸显 出 来 , 科学 引导 一 线 巡 防 。 犯罪 预测 应 用 使 用 的 数据 集 包 括 警 
务 综合 平台 的 接 处 警 、 案 事件 、 人 口 等 39 类 公安 业务 数据 ， 以 及 地 理 、 天 气 、 房 价 等 11 类 社 
会 时 空地 理 信 息 ， 共 约 8 亿 条 数据 。 与 传统 数据 分 析 采 用 抽样 数据 不 同 ， 大 数据 预测 是 用 全 量 
数据 。 通过 机 器 学 习 发 现 各 类 因子 与 警 情 的 相关 性 , 形成 预测 模型 , 不 断 用 数据 检验 预测 结果 ， 
修正 完善 形成 最 佳 的 预测 模型 。 某 市 公安 局 下 辖 各 派出 所 采用 犯罪 预测 系统 三 个 月 后 , 统计 入 
室 盗窃 类 违法 犯罪 警 情 由 2814 起 下 降 至 2520 起 ， 同 比 下 降 10.5%. 

警 务 监督 管理 应 用 利用 大 数据 技术 ， 构 建 预 防腐 败 工 作 “1+3+X” 大 数据 技 战 法 模型 ， 通 
过 抽取 有 关 业 务 系统 高 风险 项 目 监测 点 数据 ,对 业务 工作 、 队 伍 管 理 等 信息 开展 关联 碰撞 、 分 
析 研 判 、 预 警 提示 ， 重 点 解决 传统 监督 手段 进 不 了 系统 、 系 统 之 间 信 息 关 联 不 够 、 违 纪 违法 苗 
头 难以 及 时 发 现 等 问题 ， 达 到 预防 腐败 工作 抓 早 抓 小 、 防 患 未 然 的 目的 。 某 市 公安 局 纪委 针对 
近年 来 查办 的 民警 利用 职务 之 便 , 违规 将 户口 迁 入 拆迁 地 区 以 非法 获 利 的 案件 , 围绕 人 口 系统 
“办 理 常 驻 户 口 登记 ”权力 运行 中 容易 发 生 问 题 的 风险 点 ， 关 联 派出 所 综合 信息 系统 、 警 力 资 
源 信息 系统 、 执 纪 办 案 信 息 系统 、 投 诉 举报 信息 系统 的 信息 资源 ， 对 2013 年 以 来 某 派 出 所 办 
理 的 户口 数据 进行 分 析 ， 发 现 了 18 名 民警 将 本 人 的 户籍 由 原来 的 城镇 居民 户口 〈 楼 房 ) 迁 入 
农村 重点 拆迁 地 区 的 异常 情况 。 
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15.6 we 


随 着 公安 信息 化 建设 与 应 用 的 不 断 深化 , 公安 机 关 掌握 的 数据 资源 的 广度 和 深度 正在 快速 
扩大 , 各 警 种 业务 对 大 数据 的 依赖 性 越 来 越 强 , 对 大 数据 定制 服务 、 模 型 研发 的 需求 越 来 越 多 ， 
要 求 越 来 越 高 。 实施 公安 大 数据 战略 可 以 顺应 信息 化 条 件 下 的 公安 实战 需求 , 加 强 对 公安 内 外 
部 数据 资源 的 汇聚 、 清 洗 、 管 理 、 挖 掘 分 析 等 工作 ， 为 各 警 种 提供 更 高 质量 、 更 有 针对 性 的 大 
数据 定制 服务 ， 为 公安 中 心 工作 提供 更 有 力 的 支持 和 保障 。 

大 数据 的 重要 特点 之 一 是 全 数据 , 而 不 是 样本 数据 , 建立 公安 大 数据 平台 可 以 详细 记录 和 
获取 公安 领域 所 需要 的 全 部 数据 ， 避 免 出 现 以 偏 概 全 的 情况 ， 通 过 对 大 量 数据 采集 、 分 析 、 处 
理 和 配置 ， 结 合 人 工 智能 、 计 算 分 析 等 方法 挖掘 分 析 ， 可 以 发 现 有 价值 的 规律 ， 完 成 科学 的 预 
测 ， 帮 助 制订 合理 有 效 的 打击 计划 。 运用 大 数据 分 析 技术 可 以 对 各 渠道 得 来 的 海量 信息 进行 实 
时 化 、 智 能 化 处 理 ， 更 加 科学 地 分 配 警力 ， 形 成 高 效 的 打击 方案 。 

大 数据 是 打破 公安 体系 内 壁垒 的 有 效 方法 。 此 前 ,各 警 种 之 间 各 自 为 战 ,各自 拥有 自主 的 
数据 平台 ， 没 有 实现 互联 互通 ， 数 据 规模 不 等 、 格 式 不 一 、 质 量 各 异 ， 无 法 实现 共享 。 通 过 大 
数据 加 强 一 体 化 指挥 作战 平台 的 建设 和 数据 共享 ， 加 强 各 基层 公安 机 关 搜 集 数据 、 存 储 数据 、 
共享 数据 的 意识 ， 可 大 大 提高 公安 的 作战 能 力 。 

当前 ， 依 靠 经 验 直觉 进行 作战 指挥 的 优势 正在 急剧 下 降 ， 充 分 利用 大 数据 的 潜在 价值 ， 树 
立 大 数据 理念 、 完 善 制度 机 制 、 加 强 数据 专业 技术 人 才 培 养 、 构 建 大 数据 决策 支持 系统 对 推动 
我 国 公安 现代 化 建设 具有 重要 的 战略 意义 。 
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第 16 章 
IRUAK LEE 
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代 信 息 技术 与 经 济 社会 的 交汇 融合 引发 了 数据 迅猛 增长 ,数据 已 成 为 国家 基础 性 战略 资 
源 。 党 的 十 八 届 五 中 全 会 明确 提出 实施 国家 大 数据 战略 , 《国民 经 济 和 社会 发 展 第 十 三 个 五 年 
规划 纲要 》 将 实施 国家 大 数据 战略 作为 “十 三 五 ”时 期 坚持 创新 驱动 发 展 、 培 育 发 展 新 动力 、 
拓展 发 展 新 空间 的 重要 抓 手 。 我 国正 面临 从 “数据 大 国 ” 向 “数据 强国 ”转变 的 历史 新 机 遇 ， 
充分 利用 数据 规模 优势 ， 实 现 数据 规模 、 质 量 和 应 用 水 平 同步 提升 , 挖掘 和 释放 数据 资源 的 潜 
在 价值 ， 有 利于 充分 发 挥 数据 资源 的 战略 性 作用 ， 有 效 提升 国家 竞争 力 。 

大 数据 目前 在 教育 、 金 融 、 医 疗 等 行业 大 放 溢 彩 ,例如 利用 大 数据 推动 定量 化 、 个 性 化 的 
教育 变革 ， 利 用 大 数据 打击 金融 诈骗 ， 以 及 利用 大 数据 杠 别 医疗 骗 保 ， 实 现 医疗 资源 的 预测 性 
管理 等 创新 型 应 用 。 大 数据 帮助 这 些 行业 实现 数据 驱动 业务 、 创 新 及 发 展 , 但 还 没有 出 现 利 用 
大 数据 这 个 手段 改变 工业 这 些 最 传统 但 体 量 巨 大 的 行业 。 大 数据 时 代 的 特征 : 一 是 数据 要 流动 
起 来 ,利用 数据 的 外 部 性 把 看 起 来 和 工业 风 马 牛 不 相 及 的 数据 利用 起 来 ,探索 数据 的 创新 应 用 ; 
二 是 智能 化 , 如 果 没 有 人 工 智能 在 背后 支撑 , 让 数据 产生 巨大 的 价值 , 就 没有 这 个 大 数据 时 代 。 
智慧 工业 或 者 工业 4.0 的 核心 是 生产 加 工本 身 的 提升 与 提高 , 如 何 利 用 大 数据 等 技术 去 解决 工 
业 生 产 过 程 中 的 核心 问题 才 是 我 们 需要 去 探索 及 追求 的 目标 。 

德国 工业 4.0、 美 国 先进 制造 、 中 国 制造 2025、 英 国 工业 2050 等 在 内 的 一 个 个 国家 级 战 

略 部 署 正 在 加 快 推动 新 的 一 轮 产业 革命 ， 而 这 场 革命 的 核心 风暴 直 指 “智能 制造 ”这 一 新 的 战 
略 制高点 。 如 图 16-1 所 示 ， 第 一 次 工业 革命 来 自 蒸汽 机 的 改进 ， 第 二 次 工业 革命 来 自 电气 化 
推进 , 第 三 次 工业 革命 来 自 计 算 机 技术 的 日 新 月 异 , 那么 , 被 称 为 智能 制造 的 第 四 次 工业 革命 
将 会 是 前 所 未 有 的 多 技术 更 新 与 融合 。 
中 国 制 造 业 的 发 展 水 平 参差 不 齐 ， 相 当 一 部 分 企业 还 处 在 “工业 2.0” 的 阶段 ， 因 此 需要 
推进 工业 2.0、 工 业 3.0 和 工业 4.0 并 行 发 展 通道 。 我 国 的 工业 技术 对 外 依存 度 高 达 50% 以 上 ， 
95% 的 高 档 数控 系统 ，80% 的 芯片 ， 几乎 全 部 高 档 液压 件 、 密 封 件 和 发 动机 都 依靠 进口 。 所 以 ， 
技术 创新 是 发 展 核心 。 加 快 新 一 代 信息 技术 与 制造 业 的 融合 ,成 为 制造 业 转 型 升级 的 核心 , 也 
是 “中 国 制造 2025” 规 划 的 主线 。 
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INDUSTRY 4.0 
智能 制造 时 代 





图 16-1 工业 1.0~4.0 


16.1 中 国 制造 2025 


中 国 制造 2025 产业 链 将 基于 新 一 代 信息 技术 ， 贯 穿 设 计 、 和 生产、 管理 、 服 务 等 制造 活动 
的 各 个 环节 ， 是 先进 制造 过 程 、 系 统 与 模式 的 总 体 规划 。 其 中 ， 中 国 制造 2025 将 会 通过 自动 
化 装备 (机 器 人 等 ) 及 通信 技术 实现 生产 自动 化 ， 并 能 够 通过 各 类 数据 采集 分 析 〈 大 数据 ) 以 
及 应 用 通信 互联 手段 将 数据 连接 至 智能 控制 系统 (人 工 智能 )， 并 将 数据 应 用 于 企业 统一 管理 
控制 平台 (工业 软件 平台 ，， 从 而 提供 最 优化 的 生产 方案 、 协 同 制造 和 设计 、 个 性 化 定制 ,最 
终 实现 智能 化 生产 。 

智能 制造 产业 链 中 的 3 个 关键 点 是 ,传感器 提供 了 “感知 系统 ”， 大 数据 和 人 工 智能 提供 
了 “大 脑 ”， 工 业 机 器 人 提供 了 “装备 和 手段 ”。 工 业 机 器 人 是 由 操作 机 、 控 制 器 、 伺 服 驱 动 
系统 和 检测 传感器 装置 构成 的 ， 是 一 种 仿 人 操作 自动 控制 、 可 重复 编程 、 能 在 三 维 空间 完成 各 
种 作业 的 机 电 一 体 化 的 自动 化 生产 设备 。 它 对 稳定 和 提高 产品 质量 , 提高 生产 效率 ,改善 劳动 
条 件 起 着 十 分 重要 的 作用 。 中 国产 业 升 级 将 从 和 人口 红利 的 发 展 变 成 技术 红利 发 展 , 其 核心 是 机 
器 人 化 。 
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381638. 工农 业 大 数据 和 人 工 智能 
16.2. 工业 大 数据 


工业 大 数据 要 求 处 理 数据 更 高 效 、 数 据 来 源 更 可 靠 、 数 据 安全 系数 更 高 , 注重 数据 安全 管 
理 。 掌 握 工业 大 数据 的 优势 才能 打 赢 中 国 制造 2025， 真 正 地 把 握 未 来 市 场 的 主动 权 。 








16.2.1 工业 大 数据 面临 三 大 制约 因素 

1. 工业 大 数据 安全 和 开放 体系 亟待 建立 

建立 数据 安全 和 数据 开放 体系 是 工业 大 数据 大 规模 应 用 的 两 个 重要 前 提 , 我 国 多 数 工业 企 
业 的 信息 化 建设 是 由 业务 部 门 在 业务 开展 过 程 中 根据 自身 的 局 部 需求 开展 建设 ， 缺 少 统一 规 
划 ， 形 成 了 部 门 制 据 的 信息 化 烟 向 ， 导 致 数据 编码 不 一 致 ， 系统 之 间 不 能 相互 通信 ， 业 务 流程 
不 能 贯通 。 因 此 ,我 国 工业 企业 无 论 在 数据 的 总 量 上 ,还 是 数据 的 质量 上 ， 均 和 欧美 发 达 国 家 
制造 企业 存在 较 大 差距 ， 且 由 于 行业 垄断 或 商业 利益 等 原因 ， 数 据 的 开放 程度 也 不 高 。 

另 一 个 制约 我 国 工业 大 数据 应 用 发 展 的 重要 因素 是 政策 法 规 体系 不 健全 。 工 业 大 数据 的 开 
发 和 利用 既 要 满足 工业 企业 典型 应 用 场景 的 业务 发 展 需求 , 也 要 防止 涉及 国家 、 企业 秘密 的 数 
据 发 生 泄露 。 而 目前 ,我 国 在 工业 大 数据 的 利用 、 评 价 、 交 换 以 及 信息 安全 保护 方面 的 法 律 法 
规 尚 需 进一步 健全 , 这 在 很 大 程度 上 抑制 了 工业 大 数据 应 用 的 广度 和 深度 , 不 利于 工业 大 数据 
生态 系统 的 建设 和 培育 。 


2. 基于 工业 大 数据 的 企业 管理 理念 和 运作 模式 变革 

随 着 智能 设备 、 物 联网 技术 、 智 能 传感器 、 工 业 软件 以 及 工业 企业 管理 信息 系统 等 在 工业 
企业 的 广泛 应 用 ， 综 合 利用 各 种 感知 、 互 联 、 分 析 以 及 决策 技术 ， 通 过 实时 感知 、 采 集 、 监 控 
现场 制造 加 工 状况 、 物 流 情况 、 生 产 准备 情况 、 技 术 状 态 管理 情况 ， 并 开展 数据 挖掘 分 析 ， 急 
需 工 业 大 数据 平台 和 相关 技术 的 支撑 。 
工业 大 数据 应 用 的 目的 是 推动 工业 企业 基于 对 内 外 部 环境 相关 数据 的 采集 、 存 储 和 分 析 ， 
实现 企业 与 内 外 部 关联 环境 的 感知 和 互联 , 并 利用 人 工 智能 技术 开展 数据 挖掘 分 析 , 支撑 工业 
企业 基于 数据 进行 决策 管控 ， 提 升 企业 决策 管控 的 针对 性 和 有 效 性 。 

3. 工业 大 数据 人 才 缺 乏 ， 制 约 产业 发 展 


工业 大 数据 技术 应 用 的 关键 是 揭示 各 种 典型 工业 应 用 场景 下 ， 各 种 数据 的 内 在 关联 关系 ， 
因此 工业 大 数据 技术 的 应 用 者 不 但 要 掌握 工业 大 数据 的 相关 知识 和 工具 ,还 需要 深刻 了 解 制 造 
业 典 型 的 业务 场景 ,并 结合 工业 大 数据 的 分 析 和 可 视 化 展示 情况 ,结合 业务 场景 进行 合理 解读 ， 
此 外 , 还 需要 结合 业务 场景 进行 解决 方案 的 制订 和 管理 决策 , 以 上 工业 大 数据 人 才 的 要 求 将 大 
大 制约 工业 大 数据 产业 发 展 的 进程 。 

整体 上 , 工业 大 数据 对 复合 型 人 才 的 需求 更 强烈 ， 目 前 我 国 工业 大 数据 的 高 级 管理 决策 人 
才 、 数据 分 析 人 才 、 平 台 架 构 人 员 、 数据 开发 工程 师 、 算法 工程 师 等 多 个 方向 均 存在 较 大 缺口 ， 
极 大 地 阻碍 了 工业 大 数据 产业 的 发 展 。 
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16.2.2 


工业 大 数据 应 用 的 四 大 发 展 趋势 


1. 工业 大 数据 应 用 的 外 部 环境 日 益 成 熟 

以 工业 4.0 和 工业 互联 网 为 代表 的 智能 化 制造 技术 已 成 为 制造 业 发 展 的 趋势 , 智能 化 制造 
技术 的 研究 和 应 用 推动 了 工业 传感器 、 控制 器 等 软 硬 件 系统 和 先进 技术 在 工业 领域 的 应 用 , 知 
能 制造 应 用 不 断 成 熟 ， 一 方面 ， 正 在 逐步 打破 数据 孤岛 壁垒, 实现 人 与 机 器 、 机 器 与 机 器 的 互 
联 互 通 ， 为 工业 数据 的 自由 汇聚 英 定 基础 ， 另 一 方面 ， 进 一 步 增强 了 工业 大 数据 的 应 用 需求 ， 
使 得 工业 大 数据 应 用 的 外 部 环境 日 益 成 熟 。 








N 


2. 人 工 智能 和 工业 大 数据 融合 加 深 
工业 大 数据 的 广泛 深入 应 用 离 不 开机 器 学 习 、 数 据 挖 掘 、 模 式 识别 、 自 然 语 言 理 解 等 人 工 





智能 技术 清理 数据 、 提升 数据 质量 和 实现 数据 分 析 的 智能 化 , 工业 大 数据 的 应 用 和 安全 保障 都 


离 不 开 人 了 


[智能 技术 , 而 人 工 智能 的 核心 是 数据 支持 , 工业 大 数据 反 过 来 又 促进 入 工 智 能 技术 





的 应 用 发 展 ， 两 者 的 深度 融合 成 为 发 展 的 必然 趋势 。 
3. 云 平台 成 为 工业 大 数据 发 展 的 主要 方向 





工业 大 数据 云 平台 是 推动 工业 大 数据 发 展 的 重要 抓 手 。 传 统 互 联网 大 数据 的 处 理 方法 、 模 


型 和 工具 难以 直接 使 用 ,增加 了 工业 大 数据 的 技术 壁垒 ,导致 工业 大 数据 的 解决 方案 非常 昂贵 ， 


云 平台 的 出 现 为 工业 企业 特别 是 中 小 型 工业 企业 随时 、 按 需 、 高 效 地 使 用 工业 大 数据 技术 和 工 





具 提 供 了 便宜 、 可 扩展 、 用 户 友好 的 解决 方案 , 大 大 降低 了 工业 企业 拥抱 工业 大 数据 的 门槛 和 


成 本 。 


4. 工业 大 数据 将 催生 新 的 产业 


除了 云 平台 外 ,新 的 大 数据 可 视 化 和 人 工 智能 自动 化 软件 也 能 大 大 简化 工业 大 数据 的 数据 
处 理 和 分 析 过 程 , 打破 了 大 数据 专家 和 外 行 之 间 的 壁垒 。 这 些 软件 的 出 现 使 得 企业 可 以 自主 利 
用 工业 大 数据 , 做 相对 简单 的 工业 大 数据 分 析 , 以 及 外 包 复 杂 的 工业 大 数据 应 用 需求 给 专业 工 
业 大 数据 服务 公司 ， 从 而 催生 新 产业 ， 包 括 工业 大 数据 存储 、 清 理 、 分 析 、 可 视 化 等 相关 的 软 
件 开 发 、 外 包 服 务 等 。 





16.2.3 
发 展 了 
a) 


发 展 工业 大 数据 
[ 业 大 数据 可 从 以 下 几 点 入 手 : 
整合 各 工业 行业 的 数据 资源 ， 建 设 工业 互联 网 和 信息 物理 系统 ， 推 动 制造 业 向 基于 





大 数据 分 析 与 应 用 的 智能 化 转型 。 


(2) 


推动 大 数据 在 研发 设计 、 生 产 制造 、 经 营 管理 、 市 场 营销 、 业 务 协同 等 环节 的 集成 


应 用 ， 推 动 制造 模式 变革 和 工业 转型 升级 。 
(3) 加 快 建设 工业 云 及 基于 工业 云 的 应 用 等 服务 平台 。 依托 两 化 融合 和 “中 国 制造 2025” 
工作 平台 及 政策 体系 ， 开 展 工业 大 数据 创新 运用 。 





(4) 
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开展 智能 工厂 及 精细 化 管理 大 数据 应 用 试点 。 


16.3 ans 


我 们 要 为 工业 生产 装 上 “最 强大 脑 ”一 一 人 工 智能 。 智 能 制造 源 于 工业 领域 的 制造 业 。 其 
产生 的 历史 原因 是 , 机 器 的 功能 表现 不 能 遂 人 愿 ， 人 很 难 掌控 机 器 的 全 部 状态 情况 。 机 器 的 运 
行 状态 不 为 人 知 ， 且 不 说 远程 监控 ， 就 是 人 站 在 机 器 前 面 ， 也 未 必 知 道 哪个 零 部 件 正常 与 否 ， 
还 有 多 长 时 间 需 要 更 换 。 为 了 解决 这 些 问题 ， 当 前 的 制造 业 从 生产 、 流 通 到 销售 正在 越 来 越 趋 
于 数据 化 、 智 能 化 。 大 数据 和 人 工 智 能 技术 可 以 协助 企业 分 析 生产 过 程 中 的 全 链 路 数据 ,实现 
生产 效率 、 设 备 使 用 效率 提升 等 目标 ， 支 持 “AI+ 制 造 ”。 





165.7. 农业 大 数据 


农业 大 数据 是 大 数据 理念 、 技 术 和 方法 在 农业 领域 的 实践 ， 涉 及 农业 生产 、 经 营 、 管 理 和 
服务 4 个 方面 ， 是 跨行 业 、 跨 专业 的 数据 分 析 与 挖掘。 

















16.4.1 发展 现状 


近年 来 , 随 着 农业 信息 化 建设 的 加 速 和 农村 电子 商务 的 发 展 , 各 级 农业 部 门 对 农业 大 数据 
重要 性 的 认识 不 断 提高 , 各 新 型 经 营 主 体 利用 数据 的 意识 和 能 力 不 断 增强 , 推动 了 农业 大 数据 
的 发 展 和 运用 。 全 国 多 个 省 份 已 初步 建立 了 化 肥 、 农 药 、 种 子 等 农业 投入 品 , “三 品 一 标 ” 优 
质 农产品 ， 农 业 统 计 、 实 用 技术 、 质 量 标准 、 涉 农 法 律 法 规 、 农 业 专家 、 农 业 影 视 和 龙头 企业 
等 20 多 个 数据 库 ， 数 据 内 容 包 括 文本 、 图 片 、 音 视频 等 多 种 格式 。 部 分 地 方 也 开展 了 农业 大 
数据 运用 的 探索 ,如 测 土 配方 、 科 技 服务 等 农业 数据 的 采集 系统 和 查询 应 用 系统 , 方便 了 农业 
合作 社 、 农 业 龙 头 企业 、 农 民 的 使 用 ， 服 务 了 农业 生产 。 

但 是 , 农业 信息 化 的 基础 设施 差 , 数据 融合 、 分 析 的 省 级 农业 大 数据 交换 管理 中 心 尚未 建 
3E, 农业 大 数据 开放 共享 的 基础 和 制度 尚未 形成 , 农业 大 数据 研究 和 应 用 人 才 缺 乏 等 ， 严 重 制 
约 了 农业 大 数据 的 研究 和 应 用 。 


16.4.2 ”农业 大 数据 目标 


围绕 农业 提 质 增 效 、 转 型 升级 这 一 主线 ， 以 生产 、 市 场 需求 为 导向 ， 加 快 农业 专业 数据 的 
有 效 整合 、 融 合 和 应 用 服务 , 全面、 及 时 地 掌握 农业 生产 信息 和 市 场 动态 变化 趋势 ， 提 升 对 农 
业 生 产 、 经 营 的 预测 预警 能 力 和 农业 管理 的 科学 决策 水 平 ,提高 农业 经 济 发 展 水 平 ， 加 快 农业 
现代 化 发 展 进程 。 

以 农业 需求 为 导向 ， 加 强 农 业 大 数据 公共 基础 平台 建设 、 农 业 具 体 专业 领域 的 应 用 示范 ， 
不 断 探 索 创新 农业 大 数据 的 应 用 模式 , 培育 和 挖 所 农业 领域 应 用 大 数据 的 新 业态 、 新 模式 , JT 
发 大 数据 应 用 ， 增 强大 数据 发 展 的 内 生动 力 ， 形 成 常态 、 高 效 、 可 持续 的 机 制 。 政 府 部 门 应 该 
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率先 推进 农业 大 数据 资源 的 集中 与 开放 , 与 社会 联动 ， 形 成 大 数据 资源 积累 机 制 。 加 大 资源 整 
合力 度 ， 提 高 资源 使 用 效率 ， 通 过 市 场 化 、 社 会 化 方式 汇聚 和 优化 配置 社会 资源 ， 加 强 社会 信 
息 资 源 共 享 ， 加 速 推进 农业 大 数据 的 开放 、 融 合 、 共 享 ， 切 实 推动 农业 大 数据 的 深度 融合 和 广 
泛 应 用 。 

完善 省 市 级 数据 的 汇聚 、 分 析 、 应 用 能 力 。 丰 富农 业 生 产 、 农 业经 营 、 农 业 管理 和 农业 服 
务 等 领域 的 大 数据 应 用 ， 提 升 生产 智能 化 、 经 营 网 络 化 、 管 理 高 效 化 、 服 务 便捷 化 的 能 力 和 水 
平 。 推 进 各 地 区 、 各 行业 、 各 领域 涉 农 数据 资源 的 共享 开放 ， 加 强 数据 资源 的 发 气 运 用 ， 统 筹 
国内 国际 农业 数据 资源 ， 强 化 农业 资源 要 素数 据 的 集聚 利用 ， 提 升 政 府 治理 能 力 。 加强 制度 和 
标准 建设 ， 包 括 工作 制度 、 建 设 标准 、 系 统 标准 以 及 数据 标准 等 。 

提高 县 、 乡 、 村 利用 农业 数据 资源 的 能 力 。 一 是 完善 基础 设施 建设 ,完善 县 、 乡 、 村 相关 
数据 采集 、 传 输 、 共 享 基础 设施 ， 二 是 建立 大 数据 工作 机 制 ， 建 立 农 业 农 村 数据 采集 、 运 算 、 
应 用 、 服 务 机 制 ; 三 是 构建 信息 服务 体系 ,构建 面向 农业 农村 的 综合 信息 服务 体系 ,为 农民 生 
产生 活 提 供 综合 、 高 效 、 便 捷 的 信息 服务 ,缩小 城乡 数字 鸿沟 ， 促 进 城乡 发 展 一 体 化 ;四 是 加 
大 示范 力度 ,形成 一 大 批 应 用 示范 成 效 明显 、 可 复制 可 推广 的 商业 化 模式 ， 有 效 推动 产业 转型 
升级 和 生产 方式 的 转变 。 


16.4.3 ”农业 大 数据 建设 任务 


COD 形成 上 下 联动 、 覆 盖 全 面 的 农业 农村 大 数据 共享 平台 ， 实 现 数据 的 互联 互通 、 开 放 
获取 、 快 速 访问 。 加 强 信息 资源 的 整合 和 信息 公开 ,促进 农业 信息 资源 共享 和 业务 系统 之 间 的 
互联 互通 。 实 现 种 植 业 、 经 管 、 畜 牧 、 农 机 、 农 村 “三 资 ”管理 等 信息 系统 通过 统一 平台 进行 
数据 共享 和 交换 。 

OD 建立 大 数据 标准 体系 。 重 点 围绕 基础 数据 、 数 据 处 理 、 数 据 安全 、 数 据 质量 、 数 据 
产品 和 平台 标准 、 数 据 应 用 和 数据 服务 六 大 类 ， 建 立 标准 体系 ， 并 从 元 数据 、 数 据 库 、 数 据 建 
模 、 数 据 交 换 与 管理 等 领域 推动 相关 标准 的 研制 与 应 用 。 制 定 统一 涉 农 信息 资源 目录 体系 与 交 
换 标准 ， 出 台 规范 农业 大 数据 信息 资源 采集 、 融 合 、 交 换 标准 ， 保 证 网 络 运 行 的 标准 化 、 规 范 
化 ， 以 实现 开放 性 、 实 用 性 和 安全 性 。 

(3) 完善 大 数据 的 管理 。 建 立 和 完善 农业 大 数据 交换 管理 中 心平 台 各 项 制度 ， 包 括 应 用 
准 入 、 应 用 卸载 、 沙 箱 开发 、 安 全 事故 、 违 规 处 罚 等 ， 建 立 平台 运行 制度 ， 依 据 国家 信息 安全 
有 关 法 律 法 规 ， 对 所 有 农业 信息 根据 职务 、 服 务 对 象 和 服务 内 容 进 行 分 级 管理 ,加 强 信息 系统 
建设 技术 审核 ， 建 立 和 完善 平台 安全 保密 制度 ， 建 立 部 门 信息 共享 考核 工作 制度 。 

(4) 规范 大 数据 采集 。 建 立 健全 农业 大 数据 采集 制度 ， 明 确信 息 采 集 责任 。 既 要 依托 现 
有 信息 采集 渠道 改进 采集 方式 以 提高 效率 , 完善 信息 指标 以 适应 新 阶段 要 求 , 又 要 采用 分 布 式 
高 速 、 高 可 靠 数据 朴 取 或 采集 ， 高 速 数 据 全 映像 等 大 数据 收集 技术 , 广泛 收集 互联 网 数据 。 进 
一 步 优 化 涉 农 数据 监测 统计 系统 ,完善 统 计 指标 ， 扩 大 采集 监测 范围 ,改进 采 集 监 测 手段 和 方 
式 , 探索 开展 统计 监测 由 抽样 调查 逐步 向 全 样本 、 全 数据 过 渡 的 试点 , 完善 信息 进 村 入 户 村 级 
站 的 数据 采集 功能 ， 完 善 相关 数据 采集 共享 功能 。 
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(5) 推动 大 数据 的 应 用 。 建 成 农村 土地 确 权 颁 证 数据 系统 、 农 产品 质量 安全 追溯 数据 系 
Bio 提供 农 业 大 数据 的 跨 专 业 查 询 服务 、 可 视 化 决策 服务 以 及 跨 专业 的 实时 数据 集成 服务 , 为 
农业 农村 经 济 提供 服务 的 技术 数据 支撑 中 心 以 及 为 领导 科学 决策 提供 数字 依据 。 深入 实施 “ 互 
联网 十 ”现代 农业 行动 ， 利 用 大 数据 技术 提升 农业 生产 、 经 营 、 管 理 和 服务 水 平 ， 培 育 一 批 网 
络 化 、 智 能 化 、 精 细 化 的 现代 “种 养 加 ”生态 农业 新 模式 ， 加 快 完善 新 型 农业 生产 经 营 体系 
培育 多 样 化 农业 互联 网 管理 服务 模式 ， 逐 步 建立 农 副产品 、 农 资质 量 安全 追溯 体系 。 建 立 农业 
重大 与 情 的 大 数据 发 布 制度 。 围 绕 精准 农业 、 物 联网 应 用 、 产 品质 量 安全 追溯 、 农 产品 线 上 营 
销 等 开展 试点 示范 ,积极 探索 农业 大 数据 技术 在 农业 领域 集成 应 用 、 农 产品 高 标准 生产 、 优 质 
品牌 开发 和 产品 网 上 销售 等 新 途径 、 新 模式 。 的 分 析 数 据 应 用 中 心 。 同 时 ， 按 照 共享 共用 、 协 
作协 同 、 分 工分 流 的 原则 ， 推 进 建立 完善 的 数据 采集 渠道 和 监测 网 络 。 到 2020 年 ， 建 成 60 
个 农业 大 数据 采集 重点 县 。 

C6) 精准 农业 应 用 创新 。 通 过 智能 化 监测 工具 和 信息 采集 传输 装备 , 实现 信息 自动 接收 、 
分 析 汇总 、 远 程 诊断 。 建 立 和 完善 病虫害 在 线 监测 系统 ,扩大 乡村 病 虫 监测 点 数量 ， 完 善 土肥 
站 测 土 配方 施肥 信息 查询 和 专家 咨询 系统 , 推动 互联 网 技术 和 土肥 技术 的 集成 创新 。 建 立 测 土 
配方 数据 库 ， 指 导 农 民 精 量 精准 科学 施肥 ， 加 快 实现 “三 减 ” 目 标 ， 保 护 和 改善 生态 环境 。 加 
强 智 能 化 畜 禽 养殖 关键 技术 的 研究 与 应 用 ,提高 冀 禽 养殖 自动 化 程度 ,提高 饲料 利用 效率 ， 有 
效 防 控 畜 禽 疫病 。 不 断 拓展 农机 作业 领域 , 利用 大 数据 统筹 安排 农机 调度 , 提高 农机 智能 水 平 ， 
充分 发 挥 农业 机 械 集成 技术 ， 节 本 增 效 ， 推 动 精准 农业 发 展 。 

完善 农产品 市 场 预 警 信息 采集 、 分 析 、 发 布 平台 , 建立 预警 信息 数据 库 , 定期 采集 合作 社 、 
家 庭 农 场 ( 大 户 ) 、 农 产品 加 工 贸易 企业 以 及 农 资 企 业 的 生产 和 销售 信息 。 建 立 专家 分 析 师 队 
伍 和 预警 信息 分 析 会 商 发 布 制度 ， 分 析 和 发 布农 产品 生产 、 加 工 、 销 售 、 价 格 、 成 本 收益 、 供 
求 趋势 等 信息 ， 为 各 类 生产 经 营 主体 和 政府 决策 提供 有 效 的 信息 服务 。 


16.4.4 农产品 质量 安全 追溯 


加 强 农产品 〈 含 粮油 ) 质量 追溯 平台 建设 ， 健 全 追溯 数据 录入 、 监 管 信 息 综 合 统计 、 追 淹 
码 生成 、 终 端 查询 等 功能 ， 为 消费 者 提供 系统 完备 、 查 询 便捷 的 农产品 质量 信息 服务 。 引 导 新 
型 农业 经 营 主体 进入 平台 或 自 建 质量 追溯 体系 ,通过 多 种 途径 使 经 过 认证 的 绿色 食品 生产 企业 
实现 产品 质量 可 追溯 。 以 消费 者 方便 查询 和 重点 关注 的 信息 为 重点 统一 规范 农产品 质量 追溯 
内 容 ， 全 面 录入 农产品 产地 基本 情况 ， 农药、 种子、 化 肥 等 生产 投入 品 ， 重 要 生产 过 程 简短 视 
频 及 农产品 质量 标准 、 营 养 成 分 等 信息 ， 提 升 农产品 质量 追溯 的 可 信 度 ， 进 一 步 提高 优质 农 产 
品 的 市 场 竞争 力 。 
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附录 A 
BAA T SSRELE MI eS ER 


2017 年 ， 互 联网 周刊 列 出 了 “人 工 智 能 未 来 企业 排行 榜 ”， 如 表 A-1 所 示 。 





表 A-1 人 工 智 能 未 来 企业 排行 榜 





















































领域 
1 人 工 智 能 
2 人 工 智能 
3 人 工 智能 
4 人 工 智能 
5 科大 讯 飞 智能 语音 
视觉 语音 
智能 终端 系统 平台 
人 工 智能 金融 
云 计算 
智能 医疗 
深度 学 习 
机 器 人 
模糊 识别 
智能 芯片 
智能 监控 
中 文 语义 识别 
人 工 智能 
智能 出 行 工具 
19 碳 云 智能 智能 医疗 
20 商 汤 科技 计算 机 视觉 和 深度 学 习 
21 GEO 集 奥 聚 合 数据 金融 科技 
22 Chinapex 创 略 人 工 智能 
23 云 知 声 智能 语音 
24 量化 派 数据 金融 科技 
25 永 洪 科技 BI 商 业 智 能 分 析 
26 中 科 汇 联 人 工 智能 
27 Face++ 旷 视 科技 机 器 视觉 
28 地 平 线 机 器 人 机 器 人 
29 京 纬 数据 人 工 智 能 
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( 续 表 ) 
领域 
30 思 必 驰 智能 语音 
31 图 普 科 技 图 像 识别 
捷 通 华声 智能 人 机 交互 
盛开 互动 人 工 智能 、 视 觉 识别 
中 星 微 电 子 智能 芯片 
米 文 动力 人 工 智能 控制 系统 
数据 堂 科研 数据 共享 
明 略 数据 大 数据 分 析 应 用 
贝 瑞 和 康 智能 医疗 
达 阅 科技 云端 智能 机 器 人 运营 
出 门 间 问 智能 语音 
旗 瀚 科技 机 器 人 
机 器 人 
大 数据 
计算 机 视觉 和 深度 学 习 
智能 教育 
智能 语言 交互 机 器 人 
计算 机 视觉 
智能 数据 平台 
深度 学 习 
人 脸 识别 
开源 硬件 、 机 器 人 
TER 中 文 语义 与 认 知 计算 
数字 法 庭 产品 
生物 识别 
55 ne 企业 级 图 像 识 别 


人 脸 识 别 





人 工 智能 





中 文智 能 交互 





车 载 视觉 感知 








智能 无 人 系统 





分 布 式 人 工 智能 算法 





智能 教育 





智能 数据 处 理 





机 器 学 习 








机 器 人 感知 
语音 识别 

大 数据 语义 分 析 
计算 机 视觉 、 


中 科 寒 武 纪 科 技 人 工 智能 芯片 





深度 学 习 
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GE) 
































领域 
人 工 智 能 
机 器 人 定位 导航 
图 澜 科 技 3D 视觉 传 感 
镭 神 智能 位 移 传 感 
智能 管家 机 器 人 
玻 森 数据 中 文 自 然 语言 分 析 
阅 面 科技 计算 机 视觉 、 深 度 学 习 
上 海 图 正 指纹 技术 应 用 
埃 夫 特 工业 机 器 人 
中 科 视 拓 人 脸 识 别 
ILE RY 智能 医疗 
81 昆仑 人 工 智能 科技 人 工 智 能 
亮 风 台 人 机 交互 
移动 图 像 处 理 
数据 采集 分 析 
人 工 智 能 芯片 
机 器 人 
人 脸 识别 
智能 视频 
智能 医疗 
机 器 人 应 用 
智能 医疗 康复 


92 零 零 无 限 科技 无 人 机 
智久 机 器 人 科技 机 器 人 











机 器 人 
机 器 人 

96 普 强 科技 语音 识别 
97 深 鉴 科技 神经 网 络 
98 聚 力 维度 计算 机 视觉 
99 深圳 科 苹 人 脸 识 别 








100 | 小 知 科技 智能 教育 
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附录 B 
ARMA LEM Lil 


最 好 的 学 习 资 源 在 国外 的 三 个 网 站 ， 分 别 是 Coursera. Arxiv 以 及 Github. Coursera 是 全 
球 项 尖 的 在 线 学 习 网 站 ，Coursera 上 的 课程 相对 比较 基础 ， 如 图 B-1 所 示 。 


co AWE | Coursera — x e - 5 








Y à 64 htps//www.coursera.org * LJ 


coursera EER - om | ne GE 


e 


Sequence Models 


Improving Deep Neural Networks: Hyperparameter 
tuning, Regularization and Optimizatior 


Convolutional Neural Networks 


ig 计算 神经 科学 








图 B-1 Coursera 网 站 
一 般 情况 下 ， 想 做 “计算 机 视觉 ”或 者 “自然 语言 处 理 ” 等 偏 AI 方向 的 同学 ， 在 完成 “ 深 
度 学 习 ” 课 程 后 ， 想 做 “数据 挖掘 ”的 同学 在 完成 “机 器 学 习 ” 课 程 后 ， 就 可 以 选择 相应 的 实 
践 项 目 了 。 
GitHub 上 有 最 新 最 好 的 开源 代码 ， 这 些 代 码 往往 是 对 某 种 算法 的 实现 ， 如 图 B-2 所 示 。 





大 数据 技术 导论 





Q Search -Al Gb ox 5 
€ > C | @ GitHub, inc. [US] | https//github.comyse: f6=/ &q=Al&type= 


@ Cornell University Library 


Sign in ~ Sign up 
139,421 repository results Sort es match » 


al6z/ai 


myuon/Al 


Languages 


excelsimon/Al 
机 器 


B-2 GitHub 网 站 





arXiv 上 有 最 新 最 全 的 共享 论文 ， 论 文中 会 对 各 类 算法 进行 详尽 的 阐释 ， 如 图 B-3 所 示 。 


E Seweh farsi eprint 


$ httpsV/andvorg/ 


arXiv.org 


We gratefully acknowledge support from 
the Simons Foundation and member institutions 





Showing 1-50 of 1,382 results for all: Al Search vO 2 mieasec 2018-0504 | Feedback’ 


Al All fields 








Advanced Sei 


arXiv.1512.05849 [pan EZB 
Modelin; 
Authors: 
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图 B-3 arXiv 网 站 
有 一 个 神奇 的 网 站 名 叫 GitXiv， 会 帮助 各 位 找到 论文 与 代码 的 对 应 关系 ， 如 





图 











B-4 所 示 。 


附录 B 大 数据 和 人 工 智能 网 上 资料 





D Gitxiv Collaborative ©: x © - n x 

€ - C Owwwgirxiv.com * e 

Competiions About Categories + Search GitXiv Register Sign In | Post | 
Receive the best of GitXiv right in your inbox. | You Emal Get Newsletter 





Collaborative Open Computer Science 
View: Top New Best Daily 


Rainbow: Combining Improvements in Deep Reinforcement Learning 
~ DEEP REINFORCEMENT LEARNING (OR) €. 


Typesafe Abstractions for Tensor Operations 
^ TENSOR METHODS hd 


mixup: Beyond Empirical Risk Minimization 


x a by Facebook Al Research © 
AWNERSARALNETWORKS DEEPLEARNNO (DL) GENERATVE MACHINE LEARNING REOULARIZANON 
f Atem y 








图 B-4 GitXiv 网 站 


值得 指出 的 是 ， 我 们 也 可 以 利用 国内 的 “万 方 ” 及 “ 知 网 ”这 样 的 论文 查询 平台 ， 查 询 相 
关 领 域 国内 普通 高 校 的 学 位 论文 , 这样 的 论文 绝 大 部 分 都 是 中 文 并 且 会 在 论文 中 介绍 大 量 的 基 
础 背景 知识 ， 正 好 可 以 满足 初学 者 的 需求 。 

如 果 对 某 一 技术 方 的 特定 知识 点 不 明 所 以 , 例如 在 做 “自然 语言 处 理 ” 方 向 的 项 目 , 但 却 
不 太 了 解 LSTM， 则 可 以 利用 国内 的 诸如 “ 知 乎 ”“ 简 书 ” 以 及 “CSDN” 这 类 知识 分 享 网 站 ， 
只 要 不 是 太 新 的 理论 ， 都 可 以 找到 相应 的 博文 或 者 解答 。 

使 用 上 述 两 类 渠道 的 共同 技巧 是 ， 多 搜 几 篇 文章 对 比 着 看 。 同 一 个 概念 或 者 技术 ， 一 篇 文 
章 很 难 全 面 描述 清楚 ,并 且 由 于 文章 作者 不 同 ， 解 释 问 题 的 出 发 点 也 不 尽 相 同 ， 因 此 如 果 遇 到 
看 不 懂 某 篇 文章 的 情况 ， 不 用 急躁 ， 接 着 看 下 一 篇 文章 就 好 。 
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附录 C 


TI-BOERFRBSA T SSRECSS XT 


machine learning: 机 器 学 习 
instance/sample: 示例 /样本 
label: 标签 

iterative approach: 迭代 法 
attribute value: 属性 值 

sample space: 样本 空间 /输入 空间 
dimensionality: 维 数 
ground-truth: 真相 、 真 实 
training data: 训练 数据 
training model: 训 练 模型 
training set: 训练 集 
classification: 分 类 

binary classification， 二 分 类 
positive class: 正 类 

clustering: 聚 类 

unsupervised learning: 无 监督 学 习 
distribution: 分 布 

inductive learning: 归纳 学 习 
specialization: 特 化 

fit: 匹配 

artificial intelligence: 人 工 智 能 
Logic Theorist: 逻辑 理论 家 
symbolism: 符号 主义 
Hyperparameter: 超 参数 





leaming algorithm: 学 习 算法 
example: 样 例 

converged: 收敛 
attribute/feature: 属性 /特征 
attribute space: 属性 空间 

feature vector: 特征 向 量 
hypothesis: 假设 

learner: 学 习 器 

training sample: 训练 样本 

test sample: 测试 样本 

label space: 标记 空间 、 输 出 空间 
regression: 回归 

mnulti-class classification: 多 分 类 
negative class: 反 类 

supervised learning: 监督 学 习 
generalization: 泛 化 

induction: 归纳 

deduction: 演绎 

version space: 版 本 空间 

data mining: 数据 挖掘 








General Problem Solving: 通用 问题 求解 











connectionism: 连接 主义 
perceptron: 感知 机 


inductive bias: 归纳 偏好 (简称 “偏好 ”) 


Occam's razor: 奥 卡 姆 剃刀 定律 


No Free Lunch Theorem: 没有 免费 的 午餐 定量 (简称 NFL) 
independent and identically distributed: 独立 同 分 布 (ii.d.) 


HRC 本 书 中 采用 的 人 工 智 能 中 英文 术语 


Inductive Logic Programming: 归纳 逻辑 程序 设计 (简称 ILP) 
statistical learning: 统计 学 习 

Support Vector Meachine: 支持 向 量 机 (简称 SVM) 

kernel methods: 核 方法 

crowdsourcing: 众 包 

transfer learning: 迁移 学 习 

learning by analogy: 类 比 学 习 

deep learning: 深度 学 习 

loss: 误差 
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A 


AJB 测试 ( A/B testing ) 


一 种 统计 方法 , 用 于 将 两 种 或 多 种 技术 进行 比较 , 通常 是 将 当前 采用 的 技术 与 新 技术 进行 
比较 。A/B 测试 不 仅 旨 在 确定 哪 种 技术 的 效果 更 好 ， 而 且 有 助 于 了 解 相应 差异 是 否 具有 显著 
的 统计 意义 。A/B 测试 通常 采用 一 种 衡量 方式 对 两 种 技术 进行 比较 ， 但 也 适用 于 任意 有 限 数 
量 的 技术 和 衡量 方式 。 


准确 率 ( accuracy ) 
分 类 模型 的 正确 预测 所 占 的 比例 ， 可 参阅 真正 例 和 真 负 例 。 
激活 函数 ( activation function ) 


一 种 函数 〈 例 如 ReLU BRS 型 函数 ) ， 用 于 对 上 一 层 的 所 有 输入 求 加 权 和 ， 然 后 生成 一 
个 输出 值 〈 通 常 为 非 线性 值 ) ， 并 将 其 传递 给 下 一 层 。 


AdaGrad 


一 种 先进 的 梯度 下 降 法 , 用 于 重新 调整 每 个 参数 的 梯度 ,以 便 有 效 地 为 每 个 参数 指定 独立 
的 学 习 速率 。 


AUC ( ROC 曲线 下 面积 ，Area under the ROC Curve ) 


一 种 会 考虑 所 有 可 能 分 类 阔 值 的 评估 指标 。ROC 曲线 下 面积 是 ， 对 于 随机 选择 的 正 类 别 ， 
样本 确实 为 正 类 别 ， 以 及 随机 选择 的 负 类 别 ， 样 本 为 正 类 别 ， 分 类 器 更 确信 前 者 的 概率 。 


反 向 传播 算法 (backpropagation ) 


在 神经 网 络 上 执行 梯度 下 降 法 的 主要 算法 。 该 算法 会 先 按 前 向 传播 的 方式 计算 (并 缓存 ) 
每 个 节点 的 输出 值 ， 再 按 反 向 传播 遍历 图 的 方式 计算 损失 函数 值 相对 于 每 个 参数 的 偏 导 数 。 


附录 D ”术语 列表 


基准 baseline ) 


一 种 简单 的 模型 或 启发 法 , 用 作 比较 模型 效果 时 的 参考 点 。 基准 有 助 于 模型 开发 者 针对 特 
定 问题 量化 最 低 预期 效果 。 


批 次 ( batch ) 

模型 训练 的 一 次 迭代 一 次 梯度 更 新 ) 中 使 用 的 样本 集 。 

批 次 大 小 ( batch size ) 

一 个 批 次 中 的 样本 数 。 例 如 , SGD 的 批 次 大 小 为 1, 而 小 批 次 的 大 小 通常 介 于 10 到 1000 
之 间 。 批 次 大 小 在 训练 和 推断 期 间 通 常 是 固定 的 ; 不 过 ，TensorFlow 人 允许 使 用 动态 批 次 大 小 。 

偏差 ( bias ) 

距离 原点 的 截 距 或 偏 移 。 偏 差 ( 也 称 为 偏差 项 ) 在 机 器 学 习 模型 中 以 b 或 wo 表示 。 例 
如 ， 在 下 面 的 公式 中 ， 偏 差 为 b: 

yb+WIXI+TW2X2 十 ... 十 WnXn 

请 勿 与 预测 偏差 混淆 。 

二 元 分 类 ( binary classification ) 

一 种 分 类 任务 , 可 输出 两 种 互 斥 类 别 之 一 。 例 如, 对 电子 邮件 进行 评估 并 输出 “垃圾 邮件 ” 
或 “ 非 垃 圾 邮件 ”的 机 器 学 习 模 型 就 是 一 个 二 元 分 类 器 。 

分 箱 ( binning ) 

可 参阅 分 桶 。 

分 桶 ( bucketing ) 

将 一 个 特征 (通常 是 连续 特征 ) 转换 成 多 个 二 元 特征 〈 称 为 桶 或 箱 ) ， 通 常 根据 值 区 间 进 
行 转换 。 例 如 , 你 可 以 将 温度 区 间 分 割 为 离散 分 箱 , 而 不 是 将 温度 表示 成 单个 连续 的 浮 点 特征 。 
假设 温度 数据 可 精确 到 小 数 点 后 一 位 , 则 可 以 将 介 于 0.0 FEB 15.0 度 之 间 的 所 有 温度 都 归 入 一 
个 分 箱 ， 将 介 于 15.1 度 到 30.0 度 之 间 的 所 有 温度 归 入 第 二 个 分 箱 ， 并 将 介 于 30.1 度 到 50.0 
度 之 间 的 所 有 温度 归 入 第 三 个 分 箱 。 





C 


校准 层 ( calibration layer ) 


一 种 预测 后 调整 , 通常 是 为 了 降低 预测 偏差 。 调整 后 的 预测 和 概率 应 与 观察 到 的 标签 集 的 
分 布 一 致 。 


447 


人 工 智能 与 大 数据 技术 导论 


候选 采样 ( candidate sampling ) 


一 种 训练 时 进行 的 优化 , 会 使 用 某 种 函数 (例如 softmax) 针对 所 有 正 类 别 标签 计算 概率 ， 
但 对 于 负 类 别 标签 , 则 仅 针 对 其 随机 样本 计算 概率 。 例 如 , 某 个 样本 的 标签 为 “小 猎犬 > 和“ 狗 ”， 
则 候选 采样 将 针对 “小 猎犬 ”和 “ 狗 ” 类 别 输出 以 及 其 他 类 别 〈 猫 、 棒 棒 糖 、 栅 栏 ) 的 随机 子 
集 计 算 预 测 概率 和 相应 的 损失 项 。 这 种 采样 基于 的 想法 是 ,只 要 正 类 别 始终 得 到 适当 的 正 增强 ， 
负 类 别 就 可 以 从 频率 较 低 的 负 增 强 中 进行 学 习 , 这 确实 是 在 实际 中 观察 到 的 情况 。 候 选 采样 的 
目的 是 ， 通 过 不 针对 所 有 负 类 别 计 算 预 测 结果 来 提高 计算 效率 。 

分 类 数据 ( categorical data ) 

一 种 特征 , 拥有 一 组 离散 的 可 能 值 。 以 某 个 名 为 house style 的 分 类 特征 为 例 ， 该 特征 拥有 
一 组 离散 的 可 能 值 ( 共 三 个 ) BM Tudor. ranch 和 colonial。 通 过 将 house style 表示 成 分 类 
数据 ， 相 应 模型 可 以 学 习 Tudor. ranch 和 colonial 分 别 对 房价 的 影响 。 有 时 ， 离 散 集中 的 值 
是 互 斥 的 ， 只 能 将 其 中 一 个 值 应 用 于 指定 样本 。 例 如 ，car maker 分 类 特征 可 能 只 允许 一 个 样 
本 有 一 个 值 (Toyota) 。 在 其 他 情况 下 ， 则 可 以 应 用 多 个 值 。 一 辆 车 可 能 会 被 喷涂 多 种 不 同 的 
颜色 ， 因 此 ，car color 分 类 特征 可 能 会 允许 单个 样本 具有 多 个 值 〈 例 如 red 和 white) 。 分 类 
特征 有 时 称 为 离散 特征 ， 与 数值 数据 相对 。 


检查 点 ( checkpoint ) 


一 种 数据 , 用 于 捕获 模型 变量 在 特定 时 间 的 状态 。 借助 检查 点 可 以 导出 模型 权重 , 跨 多 个 
会 话 执行 训练 ， 以 及 使 训练 在 发 生 错误 之 后 得 以 继续 〈 例 如 作业 抢占 ) 。 注 意 ， 图 本 身 不 包含 
在 检查 点 中 。 


类 别 ( class ) 

为 标签 枚 举 的 一 组 目标 值 中 的 一 个 。 例 如 , 在 检测 垃圾 邮件 的 二 元 分 类 模型 中 ,两 种 类 别 
分 别 是 “垃圾 邮件 ”和 “ 非 垃圾 邮件 ”。 在 识别 狗 品 种 的 多 类 别 分 类 模型 中 ， 类 别 可 以 是 “ 贵 
FER” “小 猎犬 ” MER” $. 

分 类 不 平衡 的 数据 集 ( class-imbalanced data set ) 


一 种 二 元 分 类 问题 , 在 此 类 问题 中 ,两 种 类 别 的 标签 在 出 现 频率 方面 具有 很 大 的 差距 。 例 
如 ， 在 某 个 疾病 数据 集中 ，0.0001 的 样本 具有 正 类 别 标签 ，0.9999 的 样本 具有 负 类 别 标签 ， 
这 就 属于 分 类 不 平衡 问题 ， 但 在 某 个 足球 比赛 预测 器 中 ，0.51 的 样本 的 标签 为 其 中 一 个 球 队 
Wo 0.49 的 样本 的 标签 为 男 一 个 球 队 赢 ， 这 就 不 属于 分 类 不 平衡 问题 。 


分 类 模型 ( classification model ) 

一 种 机 器 学 习 模型 ,用 于 区 分 两 种 或 多 种 离散 类 别 。 例 如 ， 某 个 自然 语言 处 理 分 类 模型 可 
以 确定 输入 的 句子 是 法 语 、 西 班 牙 语 还 是 意大利 语 。 

HBA ( classification threshold ) 

一 种 标量 值 条 件 ， 应 用 于 模型 预测 的 得 分 ， 旨 在 将 正 类 别 与 负 类 别 区 分 开 。 将 逻辑 回归 结 
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果 映 射 到 二 元 分 类 时 使 用 。 以 某 个 逻辑 回归 模型 为 例 , 该 模型 用 于 确定 指定 电子 邮件 是 垃圾 邮 
件 的 概率 。 如 果 分 类 阔 值 为 0.9, 那么 逻辑 回归 值 高 于 0.9 的 电子 邮件 将 被 归 类 为 “垃圾 邮件 ”， 
低 于 0.9 的 则 被 归 类 为 “ 非 垃圾 邮件 ”。 

协同 过 滤 ( collaborative filtering ) 

根据 很 多 其 他 用 户 的 兴趣 来 预测 某 位 用 户 的 兴趣 。 协 同 过 滤 通 常用 在 推荐 系统 中 。 

混淆 矩阵 ( confusion matrix ) 

一 种 NXN 表格 ， 用 于 总 结 分 类 模型 的 预测 成 效 ， 即 标签 和 模型 预测 的 分 类 之 间 的 关联 。 
在 混淆 矩阵 中 ， 一 个 轴 表示 模型 预测 的 标签 ， 另 一 个 轴 表 示 实 际 标签 。N 表示 类 别 个 数 。 在 
二 元 分 类 问题 中 ，N=2。 例 如 ， 表 D-1 显示 了 一 个 二 元 分 类 问题 的 混淆 矩阵 示例 。 


RO-1 一 个 二 元 分 类 问题 的 混淆 矩阵 示例 

|  — ke A D | 
imm mo as sd 
|i (实际 标签) de [am 

上 面 的 混淆 矩阵 显示 , 在 19 个 实际 有 肿瘤 的 样本 中 , 该 模型 正确 地 将 18 个 归 类 为 有 肿 
H as 个 真正 例 ) ， 错 误 地 将 1 个 归 类 为 没有 肿瘤 〈1 个 假 负 例 ) 。 同 样 ， 在 458 个 实际 
没有 肿瘤 的 样本 中 ， 模 型 归 类 正确 的 有 452 个 (452 个 真 负 例 ) ， 归 类 错误 的 有 6 个 (6 个 
假 正 例 ) 。 

多 类 别 分 类 问题 的 混淆 矩阵 有 助 于 确定 出 错 模式 。 例 如 ， 某 个 混淆 矩阵 可 以 揭示 ， 某 个 经 
过 训练 以 识别 手写 数字 的 模型 往往 会 将 4 错误 地 预测 为 9, 将 7 错误 地 预测 为 1。 混淆 矩阵 
包含 计算 各 种 效果 指标 (包括 精确 率 和 召回 率 ) 所 需 的 充足 信息 。 

连续 特征 ( continuous feature ) 

一 种 浮 点 特征 ， 可 能 值 的 区 间 不 受 限制 ， 与 离散 特征 相对 。 

收敛 ( convergence ) 


通俗 来 说 , 收敛 通常 是 指 在 训练 期 间 达到 的 一 种 状态 ， 即 经 过 一 定 次 数 的 迭代 之 后 ,训练 
损失 和 验证 损失 在 每 次 迭代 中 的 变化 都 非常 小 或 根本 没有 变化 。 也 就 是 说 , 如 果 采 用 当前 数据 
进行 额外 的 训练 将 无 法 改进 模型 ， 模 型 即 达到 收敛 状态 。 在 深度 学 习 中 ,损失 值 有 时 会 在 最 终 
下 降 之 前 的 多 次 迭代 中 保持 不 变 或 几乎 保持 不 变 ， 暂 时 形成 收敛 的 假象 。 

另 请 参阅 早 停 法 。 

凸 函数 ( convex function ) 


一 种 函数 ， 函 数 图 像 以 上 的 区 域 为 凸 集 。 典 型 凸 函 数 的 形状 类 似 于 字母 U。 如 图 D-1 所 
示 都 是 凸 函数 。 
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图 D-1 rh 

严格 凸 函 数 只 有 一 个 局 部 最 低 点 ， 该 点 也 是 全 局 最 低 点 。 经 典 的 U 形 函 数 都 是 严格 凸 函 
数 。 不 过 ， 有 些 凸 函数 (例如 直线 ) 则 不 是 这 样 的 。 很 多 常见 的 损失 函数 (包括 下 列 函 数 ) 都 
是 凸 函 数 : 

€ 工 2 损失 函数 

© ”对 数 损失 函数 

e LI 正则 化 

© 工 2 正则 化 


梯度 下 降 法 的 很 多 变 体 都 一 定 能 找到 一 个 接近 严格 凸 函 数 最 小 值 的 点 。 同 样 ， 随机 梯度 下 
降 法 的 很 多 变 体 都 有 很 高 的 可 能 性 能 够 找到 接近 严格 凸 函 数 最 小 值 的 点 (但 并 非 一 定 能 找到 )。 

两 个 凸 函 数 的 和 《例如 Lo 损失 函数 + Lr 正则 化 ) 也 是 凸 函 数 。 

深度 模型 绝 不 会 是 凸 函 数 。 值得 注意 的 是 , 专门 针对 凸 优化 设计 的 算法 往往 总 能 在 深度 网 
络 上 找到 非常 好 的 解决 方案 ， 虽 然 这 些 解决 方案 并 不 一 定 对 应 于 全 局 最 小 值 。 


凸 优化 (convex optimization) 


使 用 数学 方法 (例如 梯度 下 降 法 ) 寻找 凸 函数 最 小 值 的 过 程 。 机 器 学 习 方面 的 大 量 研究 都 
专注 于 如 何 通过 公式 将 各 种 问题 表示 成 凸 优化 问题 ， 以 及 如 何 更 高 效 地 解决 这 些 问题 。 


凸 集 (convex set) 


欧 几 里 得 空间 的 一 个 子 集 ， 其 中 任意 两 点 之 间 的 连 线 仍 完全 落 在 该 子 集 内 。 如 图 D-2 所 
示 的 两 个 图 形 都 是 凸 集 。 


EN = 


图 D-2 MÆ 
相反 ， 如 图 D-3 所 示 的 两 个 图 形 都 不 是 凸 集 。 
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图 D-3 不 是 凸 集 
成 本 ( cost ) 
损失 的 同义词 。 
SES ( cross-entropy ) 
对 数 损失 函数 向 多 类 别 分 类 问题 进行 的 一 种 泛 化 ,交叉 炉 可 以 量化 两 种 概率 分 布 之 间 的 差异 。 
自 定义 Estimator ( Custom Estimator ) 
按照 这 些 说 明 自 行 编写 的 Estimator， 与 预 创建 的 Estimator 相对 。 


数据 集 (data set) 
一 组 样本 的 集合 。 
Dataset API ( tf.data ) 


一 种 高 级 别 的 TensorFlow API， 用 于 读 取 数 据 并 将 其 转换 为 机 器 学 习 算 法 所 需 的 格式 。 
tf.data.Dataset 对 象 表示 一 系列 元 素 ， 其 中 每 个 元 素 都 包含 一 个 或 多 个 张 量 。tf.data.Iterator 对 
象 可 获取 Dataset 中 的 元 素 。 

决策 边界 (decision boundary) 


在 二 元 分 类 或 多 类 别 分 类 问题 中 ， 模 型 学 到 的 类 别 之 间 的 分 界线 。 例 如 ， 在 如 图 D-4 所 
示 的 某 个 二 元 分 类 问题 的 图 片 中 ， 决 策 边 界 是 橙色 类 别 和 蓝 色 类 别 之 间 的 分 界线 。 


BERG HEKI 





D-4 二 元 分 类 问题 的 例子 
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密集 层 (dense layer) 

全 连接 层 的 同义词 。 

深度 模型 (deep model) 

一 种 神经 网 络 ， 其 中 包含 多 个 隐藏 层 。 深 度 模 型 依赖 于 可 训练 的 非 线性 关系 , 与 宽度 模型 


相对 。 


密集 特征 (dense feature) 

一 种 大 部 分 数值 是 非 零 值 的 特征 ， 通 常 是 一 个 浮 点 值 张 量 。 参 照 稀疏 特征 。 

衍生 特征 (derived feature) 

合成 特征 的 同义词 。 

离散 特征 (discrete feature) 

一 种 特征 ， 包 含有 限 个 可 能 值 。 例 如 ， 某 个 值 只 能 是 “动物 ” “蔬菜 ”或 “矿物 ”的 特征 


便 是 一 个 离散 特征 〈 或 分 类 特征 ) 。 与 连续 特征 相对 。 


丢弃 正则 化 (dropout regularization) 
一 种 形式 的 正则 化 , 在 训练 神经 网 络 方面 非常 有 用 。 丢 弃 正则 化 的 运作 机 制 是 , 在 神经 网 


络 层 的 一 个 梯度 步 长 中 移 除 随机 选择 的 固定 数量 的 单元 。 丢 弃 的 单元 越 多 , 正则 化 效果 就 越 强 。 
类 似 于 训练 神经 网 络 以 模拟 较 小 网 络 的 指数 级 规模 集成 学 习 。 


动态 模型 (dynamic model) 
一 种 模型 , 以 持续 更 新 的 方式 在 线 接受 训练 。 也 就 是 说 , 数据 会 源源 不 断 地 进入 这 种 模型 。 


早 停 法 (early stopping) 
一 种 正则 化 方法 ， 涉 及 在 训练 损失 仍 可 以 继续 减少 之 前 结束 模型 训练 。 使 用 早 停 法 时 , 会 


在 基于 验证 数据 集 的 损失 开始 增加 《〈 也 就 是 泛 化 效果 变 差 ) 时 结束 模型 训练 。 





EXÉ ( embeddings ) 
一 种 分 类 特征 ， 以 连续 值 特征 表示 。 通 常 ， 嵌 套 是 指 将 高 维度 向 量 映射 到 低 维度 的 空间 。 


例如 ， 您 可 以 采用 以 下 两 种 方式 之 一 来 表示 英文 句子 中 的 单词 。 
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© ”表示 成 包含 百 万 个 元 素 ( 高 维度 ) 的 稀疏 向 量 ， 其 中 所 有 元 素 都 是 整数 。 向 量 中 的 每 
个 单元 格 都 表示 一 个 单独 的 英文 单词 ,单元 格 中 的 值 表示 相应 单词 在 句子 中 出 现 的 次 
数 。 由 于 单个 英文 句子 包含 的 单词 不 太 可 能 超过 50 个 , 因此 向 量 中 几乎 每 个 单元 格 
都 包含 0。 少 数 非 0 的 单元 格 中 将 包含 一 个 非常 小 的 整数 ( 通常 为 1 ) ， 该 整数 表示 
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相应 单词 在 句子 中 出 现 的 次 数 。 

© 表示 成 包含 数 百 个 元 素 ( 低 维度 ) 的 密集 向 量 ， 其 中 每 个 元 素 都 包含 一 个 介 于 0 和 1 
之 间 的 浮 点 值 。 这 就 是 一 种 谋 套 。 

在 TensorFlow 中 ， 会 按 反 向 传播 损失 训练 嵌 套 ， 和 训练 神经 网 络 中 的 任何 其 他 参数 时 一 样 。 

经 验 风险 最 小 化 ( Empirical Risk Minimization , ERM ) 

用 于 选择 可 以 将 基于 训练 集 的 损失 降 至 最 低 的 模型 函数 。 与 结构 风险 最 小 化 相对 。 

集成 学 习 (ensemble) 

多 个 模型 的 预测 结果 的 并 集 。 你 可 以 通过 以 下 一 项 或 多 项 来 创建 集成 学 习 : 

e 不 同 的 初始 化 。 

e 不 同 的 超 参 数 。 

€ 不 同 的 整体 结构 。 

深度 模型 和 宽度 模型 属于 一 种 集成 学 习 。 

周期 (epoch) 


在 训练 时 ， 整 个 数据 集 的 一 次 完整 遍历 ， 以 便 不 漏 掉 任何 一 个 样本 。 因 此 ， 一 个 周期 表示 
“M/ 批 次 规模 ”次 训练 迭代 ， 其 中 N 是 样本 总 数 。 


Estimator 


tfEstimator 类 的 一 个 实例 ,用 于 封装 负责 构建 TensorFlow 图 并 运行 TensorFlow 会 话 的 
逻辑 。 可 以 创建 自己 的 自 定义 Estimator， 也 可 以 将 其 他 人 预 创建 的 Estimator 实例 化 。 


样本 ( example ) 


数据 集 的 一 行 。 一 个 样本 包含 一 个 或 多 个 特征 ， 此 外 ， 还 可 能 包含 一 个 标签 。 另 可 参阅 有 
标签 样本 和 无 标签 样本 。 


假 负 例 ( False Negative , FN ) 


考虑 一 个 二 分 类 问题 ， 即 将 实例 分 成 正 类 (Positive) 或 负 类 (Negative) 。 对 一 个 二 分 类 
问题 来 说 ， 会 出 现 4 种 情况 。 如 果 一 个 实例 是 正 类 并 且 也 被 预测 成 正 类 ， 即 为 真正 类 (True 
Positive) ;如 果实 例 是 负 类 被 预测 成 正 类 ， 称 为 假 正 类 (False Positive) 。 相 应 地 ， 如 果实 例 
是 负 类 被 预测 成 负 类 ， 称 为 真 负 类 (True Negative) ; 如 果 正 类 被 预测 成 负 类 ， 则 称 为 假 负 类 

(False Negative) 。 
EN 是 被 模型 错误 地 预测 为 负 类 别 的 样本 。 例 如 ， 模 型 推断 出 某 封 电子 邮件 不 是 垃圾 邮件 
〈 负 类 别 ) ， 但 该 电子 邮件 其 实 是 垃圾 邮件 。 
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假 正 例 ( False Positive , FP ) 


被 模型 错误 地 预测 为 正 类 别 的 样本 。 例 如 ,模型 推断 出 某 封 电子 邮件 是 垃圾 邮件 ( 正 类 别 )， 
但 该 电子 邮件 其 实 不 是 垃圾 邮件 。 


假 正 例 率 (False Positive Rate , FP Æ ) 
ROC 曲线 中 的 x 轴 。FP 率 的 定义 如 下 : 
假 正 例 率 = 假 正 例 数 /〈 假 正 例 数 + 真 负 例 数 ) 
特征 ( feature ) 
在 进行 预测 时 使 用 的 输入 变量 。 
特征 列 ( Feature Columns ) 


一 组 相关 特征 ， 例 如 用 户 可 能 居住 的 所 有 国家 /地 区 的 集合 。 样 本 的 特征 列 中 可 能 包含 一 
个 或 多 个 特征 。TensorFlow 中 的 特征 列 内 还 封装 了 元 数据 ， 例 如 : 


e ”特征 的 数据 类 型 。 

e ”特征 是 固定 长 度 还 是 应 转换 为 谋 套 。 

特征 列 可 以 包含 单个 特征 。 

特征 交叉 组 合 feature cross ) 

通过 将 单独 的 特征 进行 组 合 ( 相 乘 或 求 笛 卡尔 积 ) 而 形成 的 合成 特征 。 特征 组 合 有 助 于 表 
示 非 线性 关系 。 

特征 工程 feature engineering ) 


特征 工程 有 时 称 为 特征 提取 ， 过 程 为 : 确定 哪些 特征 可 能 在 训练 模型 方面 非常 有 用 ， 然 后 
将 原始 数据 转换 为 所 需 的 特征 。 


特征 集 (feature set) 


训练 机 器 学 习 模型 时 采用 的 一 组 特征 。 例 如 ， 对 于 某 个 用 于 预测 房价 的 模型 ， 邮 政 编码 、 
房屋 面积 以 及 房屋 状况 可 以 组 成 一 个 简单 的 特征 集 。 

特征 规范 (feature spec) 

用 于 描述 如 何 从 蔚 Example proto buffer 提取 特征 数据 。 由 于 tf.Example proto buffer 只 是 
一 个 数据 容器 ， 因 此 必须 指定 以 下 内 容 : 


e 要 提取 的 数据 (特征 的 键 ) 。 
e ”数据 类 型 (例如 float X int) 。 
e 长 度 (固定 或 可 变 ) 。 


Estimator API 提供 了 一 些 可 用 来 根据 给 定 Feature Columns 列表 生成 特征 规范 的 工具 。 
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完整 softmax (full softmax) 

可 参阅 softmax。 与 候选 采样 相对 。 

全 连接 层 (fully connected layer) 

一 种 隐藏 层 ， 其 中 的 每 个 节点 均 与 下 一 个 隐藏 层 中 的 每 个 节点 相连 。 全 连接 层 又 称 为 密集 层 。 


泛 化 (generalization) 

指 的 是 模型 依据 训练 时 采用 的 数据 ， 针 对 以 前 未 见 过 的 新 数据 做 出 正确 预测 的 能 力 。 

广义 线性 模型 (generalized linear model) 

最 小 二 乘 回 归 模型 〈 基 于 高 斯 噪声 ) 向 其 他 类 型 的 模型 (基于 其 他 类 型 的 噪声 ,例如 泊 松 
噪声 或 分 类 噪声 ) 进行 的 一 种 泛 化 。 广 义 线性 模型 的 示例 包括 : 

e 逻辑 回归 。 

e 多 类 别 回归 。 

e 最 小 二 乘 回归 。 

可 以 通过 凸 优化 找到 广义 线性 模型 的 参数 。 广 义 线性 模型 具有 以 下 特性 : 

€ 最 优 的 最 小 二 乘 回归 模型 的 平均 预测 结果 等 于 训练 数据 的 平均 标签 。 

e 最 优 的 逻辑 回归 模型 预测 的 平均 概率 等 于 训练 数据 的 平均 标签 。 

广义 线性 模型 的 功能 受 其 特征 的 限制 .与 深度 模型 不 同 , 广义 线性 模型 无 法 “学 习 新 特征 ”。 

梯度 (gradient) 


偏 导 数 相 对 于 所 有 自 变量 的 向 量 。 在 机 器 学 习 中 ,梯度 是 模型 函数 偏 导数 的 向 量 。 梯度 指 
向 最 快 上 升 的 方向 。 


梯度 裁剪 (gradient clipping) 
在 应 用 梯度 值 之 前 先 设置 其 上 限 。 梯 度 裁剪 有 助 于 确保 数值 稳定 性 以 及 防止 梯度 爆炸 。 
梯度 下 降 法 (gradient descent) 


一 种 通过 计算 并 且 减 小 梯度 将 损失 降 至 最 低 的 技术 , 它 以 训练 数据 为 条 件 来 计算 损失 相对 
于 模型 参数 的 梯度 。 通 俗 来 说 ,梯度 下 降 法 以 迭代 方式 调整 参数 ,逐渐 找 到 权重 和 偏差 的 最 佳 
组 合 ， 从 而 将 损失 降 至 最 低 。 


(graph) 
TensorFlow 中 的 一 种 计算 规范 。 图 中 的 节点 表示 操作 。 边 缘 具 有 方向 ， 表 示 将 某 项 操作 
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的 结果 (一 个 张 量 ) 作为 一 个 操作 数 传递 给 另 一 项 操作 。 可 以 使 用 TensorBoard 直观 地 呈现 图 。 


H 


启发 法 (heuristic) 

一 种 非 最 优 但 实用 的 问题 解决 方案 ， 足 以 用 于 进行 改进 或 从 中 学 习 。 

隐藏 层 hidden layer ) 

神经 网 络 中 的 合成 屋 , 介 于 输入 层 (特征 ) 和 输出 层 (预测 ) 之 间 。 神 经 网 络 包含 一 个 或 


多 个 隐藏 层 。 


合 页 损失 函数 ( hinge loss ) 
一 系列 用 于 分 类 的 损失 函数 , 旨 在 找到 距离 每 个 训练 样本 都 尽 可 能 远 的 决策 边界 ,从 而 使 


样本 和 边界 之 间 的 裕 度 最 大 化 。 KSVM 使 用 合 页 损失 函数 〈 或 相关 函数 ， 例 如 平方 合 页 损失 
函数 ) 。 对 于 二 元 分 类 ， 合 页 损失 函数 的 定义 如 下 : 


loss-max(0, 1-(y*y)) 
其 中 “y'” 表 示 分 类 器 模型 的 原始 输出 : 
y=b+WwixitW2X2+...+WaXn 
“y” 表 示 真 标签 ， 值 为 -1 或 +1。 
维持 数据 ( holdout data ) 
训练 期 间 故 意 不 使 用 (“维持 ”) 的 样本 。 验 证 数据 集 和 测试 数据 集 都 属于 维持 数据 。 维 


持 数据 有 助 于 评估 模型 向 训练 时 所 用 数据 之 外 的 数据 进行 泛 化 的 能 力 。 与 基于 训练 数据 集 的 损 
失 相 比 ， 基 于 维持 数据 集 的 损失 有 助 于 更 好 地 估算 基于 未 见 过 的 数据 集 的 损失 。 


超 参 数 ( hyperparameter ) 
在 模型 训练 的 连续 过 程 中 ， 您 调节 的 “旋钮 ”。 例 如 ， 学 习 速 率 就 是 一 种 超 参数 。 与 参数 


相对 。 


超 平面 ( hyperplane ) 
将 一 个 空间 划分 为 两 个 子 空间 的 边界 。 例 如 , 在 二 维 空间 中 , 直线 就 是 一 个 超 平面 ， 在 三 





维 空间 中 , 平面 则 是 一 个 超 平面 。 在 机 器 学 习 中 更 典型 的 是 , 超 平面 是 分 隔 高 维度 空间 的 边界 。 
核 支 持 向 量 机 利用 超 平面 将 正 类 别 和 负 类 别 区 分 开 来 〈 通 常 在 极 高 维度 空间 中 ) 。 
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独立 同 分 布 (independently and identically distributed , ii.d ) 


从 不 会 改变 的 分 布 中 提取 的 数据 ， 其 中 提取 的 每 个 值 都 不 依赖 于 之 前 提取 的 值 。ii.d. 是 
机 器 学 习 的 理想 状态 ， 但 在 现实 世界 中 几乎 从 未 发 现 过 。 例 如 ， 某 个 网 页 的 访问 者 在 短 时 间 内 
的 分 布 可 能 为 ;id.， 即 分 布 在 短 时 间 内 没有 变化 ， 且 一 位 用 户 的 访问 行为 通常 与 另 一 位 用 户 
的 访问 行为 无 关 。 不 过 ， 如 果 将 时 间 窗 口 扩大 ， 网 页 访问 者 的 分 布 可 能 呈现 出 季节 性 变化 。 
推断 ( inference ) 


在 机 器 学 习 中 ， 推 断 的 过 程 通常 为 : 通过 将 训练 过 的 模型 应 用 于 无 标签 样本 来 做 出 预测 。 
在 统计 学 中 ， 推 断 是 指 在 某 些 观测 数据 条 件 下 拟 合 分 布 参数 的 过 程 。 


输入 函数 ( input function ) 


在 TensorFlow 中 ， 用 于 将 输入 数据 返回 Estimator 的 训练 、 评 估 或 预测 方法 的 函数 。 例 
如 ， 训 练 输入 函数 用 于 返回 训练 集中 的 批 次 特征 和 标签 。 


输入 层 input layer ) 

神经 网 络 中 的 第 一 层 〈 接 收 输入 数据 的 层 ) 。 
实例 (instance ) 

样本 的 同义词 。 

可 解释 性 ( interpretability ) 


模型 的 预测 可 解释 的 难 易 程度 。 深 度 模型 通常 不 可 解释 ， 也 就 是 说 ， 很 难 对 深度 模型 的 不 
同 层 进行 解释 。 相 比 之 下 ， 线 性 回归 模型 和 宽度 模型 的 可 解释 性 通常 要 好 得 多 。 


评分 者 间 一 致 性 信 度 ( inter-rater agreement ) 


一 种 衡量 指标 , 用 于 衡量 在 执行 某 项 任务 时 评分 者 达成 一 致 的 频率 。 如 果 评 分 者 未 达成 一 
致 ， 则 可 能 需要 改进 任务 说 明 。 有 时 也 称 为 注释 者 间 一 致 性 信 度 或 评分 者 问 可 靠 性 信 度 。 


31$ (iteration ) 
模型 的 权重 在 训练 期 间 的 一 次 更 新 。 迭 代 包 含 计 算 参 数 在 单个 批量 数据 上 的 梯度 损失 。 





K 


Keras 


一 种 热门 的 Python 机 器 学 习 API. Keras 能 够 在 多 种 深度 学 习 框架 上 运行 ， 其 中 包括 
TensorFlow〔 在 该 框架 上 ，Keras (EW t£keras 提供 ) 。 
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核 支 持 向 量 机 ( Kernel Support Vector Machines , KSVM ) 


一 种 分 类 算法 ， 旨 在 通过 将 输入 数据 向 量 映射 到 更 高 维度 的 空间 来 最 大 化 正 类 别 和 负 类 别 
之 间 的 裕 度 。 以 某 个 输入 数据 集 包 含 一 百 个 特征 的 分 类 问题 为 例 ， 为 了 最 大 化 正 类 别 和 负 类 别 
之 间 的 裕 度 , KSVM 可 以 在 内 部 将 这 些 特征 映射 到 百 万 维度 的 空间 。 KSVM 使 用 合 页 损失 函数 。 


L1 损失 函数 ( Li loss ) 

一 种 损失 函数 ， 基 于 模型 预测 的 值 与 标签 的 实际 值 之 差 的 绝对 值 。 与 Lo 损失 函数 相 比 ， 
La 损失 函数 对 离 群 值 的 敏感 性 弱 一 些 。 

L1 正则 化 ( Li regularization ) 

一 种 正则 化 ， 根 据 权 重 的 绝对 值 的 总 和 来 惩罚 权重 。 在 依赖 稀疏 特征 的 模型 中 ，LI1 正则 
化 有 助 于 使 不 相关 或 几乎 不 相关 的 特征 的 权重 正好 为 0， 从 而 将 这 些 特 征 从 模型 中 移 除 。 与 
L2 正则 化 相对 。 

L2 损失 函数 ( Lz loss ) 

可 参阅 平方 损失 函数 。 

L2 正则 化 ( L2 regularization ) 


一 种 正则 化 ， 根 据 权重 的 平方 和 来 惩罚 权重 。L2 正则 化 有 助 于 使 离 群 值 (具有 较 大 正 值 
或 较 小 负 值 ) 权重 接近 于 0， 但 又 不 正好 为 0 C5 L1 正则 化 相对 ) 。 在 线性 模型 中 ，L2 正则 
化 始终 可 以 改进 泛 化 。 

标签 ( label ) 


在 监督 式 学 习 中 ， 标 签 指 样本 的 “答案 ”或 “结果 ”部 分 。 有 标签 数据 集中 的 每 个 样本 都 
包含 一 个 或 多 个 特征 以 及 一 个 标签 。 例 如 ,在 房屋 数据 集中 ,特征 可 以 包括 卧室 数 、 卫 生 间 数 
以 及 房 龄 ， 而 标签 则 可 以 是 房价 。 在 垃圾 邮件 检测 数据 集中 , 特征 可 以 包括 主题 行 、 发 件 人 以 
及 电子 邮件 本 身 ， 而 标签 则 可 以 是 “垃圾 邮件 ”或 “ 非 垃圾 邮件 ”。 


有 标签 样本 ( labeled example ) 

包含 特征 和 标签 的 样本 。 在 监督 式 训练 中 ， 模 型 从 有 标签 样本 中 进行 学 习 。 

lambda 

正则 化 率 的 同义词 。 这 是 一 个 多 含义 术语 ， 我 们 在 此 关注 的 是 该 术语 在 正则 化 中 的 定义 。 
Æ (layer) 

神经 网 络 中 的 一 组 神经 元 , 处 理 一 组 输入 特征 或 一 组 神经 元 的 输出 。 此 外 , 还 指 TensorFlow 
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中 的 抽象 层 。 层 是 Python 函数 ， 以 张 量 和 配置 选项 作为 输入 ， 然 后 生成 其 他 张 量 作为 输出 。 
当 必 要 的 张 量 组 合 起 来 时 ， 用 户 便 可 以 通过 模型 函数 将 结果 转换 为 Estimator。 

Layers API ( tf.layers ) 

一 种 TensorFlow API， 用 于 以 层 组 合 的 方式 构建 深度 神经 网 络 。 通 过 Layers API 可 以 构 
建 不 同类 型 的 层 ， 例 如 : 

€ iit tflayers. Dense 构建 全 连接 层 。 

© iit tflayers Conv2D 构建 卷 积 层 。 


在 编写 自 定义 Estimator 时 ， 可 以 编写 “ 层 ” 对 象 来 定义 所 有 隐藏 层 的 特征 。Layers API 
遵循 Keras Layers API 规范。 也 就 是 说 ,除了 前 缓 不同 以 外 ,Layers API 中 的 所 有 函数 均 与 Keras 
Layers API 中 的 对 应 函数 具有 相同 的 名 称 和 签名 。 


学 习 速 率 ( learning rate ) 

在 训练 模型 时 用 于 梯度 下 降 的 一 个 变量 。 在 每 次 迭代 期 间 , 梯度 下 降 法 都 会 将 学 习 速率 与 
梯度 相 乘 。 得 出 的 乘积 称 为 梯度 步 长 。 

学 习 速 率 是 一 个 重要 的 超 参 数 。 

最 小 二 乘 回归 ( least squares regression ) 

一 种 通过 最 小 化 工 2 损失 训练 出 的 线性 回归 模型 。 

线性 回归 (linear regression ) 

一 种 回归 模型 ， 通 过 将 输入 特征 进行 线性 组 合 ， 以 连续 值 作为 输出 。 

逻辑 回归 ( logistic regression ) 

一 种 模型 ， 通 过 将 S 型 函数 应 用 于 线性 预测 ， 生 成 分 类 问题 中 每 个 可 能 的 离散 标签 值 的 
概率 。 虽然 逻辑 回归 经 常用 于 二 元 分 类 问题 , 但 也 可 用 于 多 类 别 分 类 问题 (其 叫 法 变 为 多 类 别 
逻辑 回归 或 多 项 回归 ) 。 

对 数 损失 函数 ( Log Loss ) 

二 元 逻辑 回归 中 使 用 的 损失 函数 。 

损失 ( Loss ) 

一 种 衡量 指标 ， 用 于 衡量 模型 的 预测 偏离 其 标签 的 程度 。 或 者 更 悲观 地 说 ,用 于 衡量 模型 
有 多 差 。 要 确定 此 值 ， 模 型 必须 定义 损失 函数 。 例 如 ， 线 性 回归 模型 通常 将 均 方 误差 用 于 损失 
函数 ， 而 逻辑 回归 模型 则 使 用 对 数 损失 函数 。 
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机 器 学 习 ( machine learning ) 


一 种 程序 或 系统 ， 用 于 根据 输入 数据 构建 (训练 ) 预测 模型 。 这 种 系统 会 利用 学 到 的 模型 
根据 从 分 布 (训练 该 模型 时 使 用 的 同一 分 布 ) 中 提取 的 新 数据 (以 前 从 未 见 过 的 数据 ) 进行 实 
用 的 预测 。 机 器 学 习 还 指 与 这 些 程序 或 系统 相关 的 研究 领域 。 


均 方 误差 ( Mean Squared Error , MSE ) 

每 个 样本 的 平均 平方 损失 。MSE 的 计算 方法 是 平方 损失 除 以 样本 数 。TensorFlow 
Playground 显示 的 “训练 损失 ” 值 和 “测试 损失 ” 值 都 是 MSE。 

指标 ( metric ) 


你 关心 的 一 个 数值 。 可 能 可 以 ， 也 可 能 不 可 以 直接 在 机 器 学 习 系统 中 得 到 优化 。 你 的 系统 
尝试 优化 的 指标 称 为 目标 。 


Metrics API ( tf.metrics ) 


一 种 用 于 评估 模型 的 TensorFlow API. 例如, tfmetrics.accuracy 用 于 确定 模型 的 预测 与 标 
签 匹配 的 频率 。 在 编写 自 定义 Estimator 时 ， 你 可 以 调用 Metrics API 函数 来 指定 应 如 何 评估 
你 的 模型 。 

小 批 次 ( mini-batch ) 

从 训练 或 推断 过 程 的 一 次 迭代 中 一 起 运行 的 整 批 样本 内 随机 选择 的 一 小 部 分 。 小 批 次 的 规 
模 通常 介 于 10 和 1000 之 间 。 与 基于 完整 的 训练 数据 计算 损失 相 比 , 基于 小 批 次 数据 计算 损失 
要 高 效 得 多 。 


小 批 次 随机 梯度 下 降 法 ( Mini-Batch Stochastic Gradient Descent , SGD ) 


一 种 采用 小 批 次 样本 的 梯度 下 降 法 。 也 就 是 说 ， 小 批 次 SGD 会 根据 一 小 部 分 训练 数据 来 
估算 梯度 。Vanilla SGD 使 用 的 小 批 次 的 规模 为 1 。 

ML 

机 器 学 习 的 缩写 。 

模型 ( model ) 

机 器 学 习 系统 从 训练 数据 学 到 的 内 容 的 表示 形式 。 多 含义 术语 , 可 以 理解 为 下 列 两 种 相关 
GM2Z-: 

€ 一 种 TensorFlow 图 ， 用 于 表示 预测 计算 结构 。 

€ i TensorFlow 图 的 特定 权重 和 偏差 ， 通 过 训练 决定 。 
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模型 训练 ( model training ) 
确定 最 佳 模型 的 过 程 。 
动量 ( Momentum ) 


一 种 先进 的 梯度 下 降 法 , 其 中 学 习 步 长 不 仅 取决 于 当前 步 长 的 导数 , 还 取决 于 之 前 一 步 或 
多 步 的 步 长 的 导数 。 动 量 涉及 计算 梯度 随时 间 而 变化 的 指数 级 加 权 移 动 平均 值 , 与 物理 学 中 的 
动量 类 似 。 动 量 有 时 可 以 防止 学 习 过 程 被 卡 在 局 部 最 小 的 情况 。 

多 类 别 分 类 ( multi-class classification ) 


区 分 两 种 以 上 类 别 的 分 类 问题 。 例 如 ， 枫 树 大 约 有 128 种 ， 因 此 ， 确 定 枫 树种 类 的 模型 
就 属于 多 类 别 模型 。 反 之 ， 仅 将 电子 邮件 分 为 两 类 (“ 垃 圾 邮件 ”和 “ 非 垃圾 邮件 ”) 的 模型 
属于 二 元 分 类 模型 。 


多 项 分 类 ( multinomial classification ) 
多 类 别 分 类 的 同义词 。 


N 


NaN 陷阱 ( NaN trap ) 


模型 中 的 一 个 数字 在 训练 期 间 变 成 NaN， 这 会 导致 模型 中 的 很 多 或 所 有 其 他 数字 最 终 也 
会 变 成 NaN。NaN 是 “ 非 数字 ”的 缩写 。 


负 类 别 ( negative class ) 


在 二 元 分 类 中 ,一 种 类 别称 为 正 类 别 ， 另 一 种 类 别称 为 负 类 别 。 正 类 别 是 我 们 要 寻找 的 类 
别 ， 负 类 别 则 是 另 一 种 可 能 性 。 例 如 ， 在 医学 检查 中 ， 负 类 别 可 以 是 “ 非 肿瘤 ”。 在 电子 邮件 
分 类 器 中 ， 负 类 别 可 以 是 “ 非 垃圾 邮件 ”。 另 可 参阅 正 类 别 。 


神经 网 络 ( neural network ) 


一 种 模型 ， 灵感 来 源 于 脑 部 结构 ， 由 多 个 层 构成 (至 少 有 一 个 是 隐藏 层 ) ， 每 个 层 都 包含 
简单 相连 的 单元 或 神经 元 (具有 非 线 性 关系 )。 


神经 元 ( neuron ) 


神经 网 络 中 的 节点 , 通常 用 于 接收 多 个 输入 值 并 生成 一 个 输出 值 。 神 经 元 通过 将 激活 函数 
〈 非 线性 转换 ) 应 用 于 输入 值 的 加 权 和 来 计算 输出 值 。 


节点 (node ) 
多 含义 术语 ， 可 以 理解 为 下 列 两 种 含义 之 一 : 
e ”隐藏 层 中 的 神经 元 。 
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€  TensorFlow 图 中 的 操作 。 

标准 化 (normalization) 

将 实际 的 值 区 间 转 换 为 标准 的 值 区 间 (通常 为 -1 到 +1 或 0 到 1) 的 过 程 。 例 如 ， 某 
个 特征 的 自然 区 间 是 800 到 6000, 通过 减法 和 除法 运算 , 你 可 以 将 这 些 值 标准 化 为 位 于 -1 到 
+1 的 区 间 内 。 另 可 参阅 缩放 。 

数值 数据 (numerical data) 


用 整数 或 实数 表示 的 特征 。 例如, 在 房地产 模型 中 , 你 可 能 会 用 数值 数据 表示 房子 大 小 (以 
平方 英尺 或 平方 米 为 单位 ) 。 如 果 用 数值 数据 表示 特征 , 则 可 以 表明 特征 的 值 相互 之 间 具 有 数 
FRA, 并且 可 能 与 标签 也 有 数学 关系 。 例如， 如 果 用 数值 数据 表示 房子 大 小 ， 则 可 以 表明 
积 为 200 平方 米 的 房子 是 面积 为 100 平方 米 的 房子 的 两 倍 。 此外, 房子 面积 的 平方 米 数 可 能 
与 房价 存在 一 定 的 数学 关系 。 

并 非 所 有 整数 数据 都 应 表示 成 数值 数据 。 例如， 世界 上 某 些 地 区 的 邮政 编码 是 整数 ,但 在 
模型 中 , 不 应 将 整数 邮政 编码 表示 成 数值 数据 。 这 是 因为 邮政 编码 20000 在 效力 上 并 不 是 邮政 
编码 10000 的 两 倍 (或 一 半 ) 。 此 外 ， 虽 然 不 同 的 邮政 编码 确实 与 不 同 的 房地产 价值 有 关 ， 
但 我 们 也 不 能 假设 邮政 编码 为 20000 的 房地产 在 价值 上 是 邮政 编码 为 10000 的 房地产 的 两 
倍 。 邮 政 编码 应 表示 成 分 类 数据 。 

数值 特征 有 时 称 为 连续 特征 。 


Numpy 
一 个 开源 代码 数学 库 , 在 Python 中 提供 高 效 的 数组 操作 。Pandas 就 建立 在 Numpy 之 上 。 


























目标 ( objective ) 

算法 尝试 优化 的 指标 。 

离线 推断 ( offline inference ) 

生成 一 组 预测 ， 存 储 这 些 预测 ， 然 后 根据 需求 检索 这 些 预 测 。 与 在 线 推断 相对 。 
独 热 编 码 ( one-hot encoding ) 

一 种 稀疏 向 量 ， 其 中 : 

@ 一 个 元 素 设 为 1。 

e ”所 有 其 他 元 素 均 设 为 0. 


one-hot 编码 常用 于 表示 拥有 有 限 个 可 能 值 的 字符 串 或 标识 符 。 例 如 ， 假 设 某 个 指定 的 植 
物 学 数据 集 记 录 了 15000 个 不 同 的 物种 ， 其 中 每 个 物种 都 用 独一无二 的 字符 串 标识 符 来 表示 ， 
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在 特征 工程 过 程 中 ， 你 可 能 需要 将 这 些 字符 串 标识 符 编 码 为 one-hot 向 量 ， 向 量 的 大 小 为 
15000. 

一 对 多 ( one-vs.-all ) 

假设 某 个 分 类 问题 有 N 种 可 能 的 解决 方案 ， 一 对 多 解决 方案 将 包含 N 个 单独 的 二 元 分 
类 器 ， 一 个 二 元 分 类 器 对 应 一 种 可 能 的 结果 。 例 如 ， 假 设 某 个 模型 用 于 区 分 样本 属于 动物 、 蔬 
菜 还 是 矿物 ， 一 对 多 解决 方案 将 提供 下 列 三 个 单独 的 二 元 分 类 器 : 


e ”动物 和 非 动物 。 

© ”蔬菜 和 非 蔬菜 。 

e 矿物 和 非 矿物 。 

在 线 推断 ( online inference ) 
根据 需求 生成 预测 。 与 离线 推断 相对 。 
操作 ( Operation , op ) 


TensorFlow 图 中 的 节点 。 在 TensorFlow 中 ， 任 何 创建 、 操 纵 或 销毁 张 量 的 过 程 都 属于 
操作 。 例 如, 矩阵 相 乘 就 是 一 种 操作 ,该 操作 以 两 个 张 量 作为 输入 , 并 生成 一 个 张 量 作为 输出 。 


优化 器 (optimizer) 


梯度 下 降 法 的 一 种 具体 实现 。TensorFlow 的 优化 器 基 类 是 世 train.Optimizer。 不 同 的 优化 
a (tftrain.Optimizer 的 子 类 ) 会 考虑 如 下 概念 : 


€ Y (Momentum). 

e 更 新 频率 ( AdaGrad= ADAptive GRADient descent; Adam- ADAptive with 
Momentum; RMSProp) . 

e HAERE (Ftrl) 。 

e 更 复杂 的 计算 方法 (Proxima, 43). 

甚至 还 包括 NN 驱动 的 优化 器 。 

离 群 值 ( outlier ) 

与 大 多 数 其 他 值 差别 很 大 的 值 。 在 机 器 学 习 中 ， 下 列 所 有 值 都 是 离 群 值 。 

e ”绝对 值 很 高 的 权重 。 

@ “与 实际 值 相 差 很 大 的 预测 值 。 

© 。” 值 比 平均 值 高 大 约 3 个 标准 偏差 的 输入 数据 。 

离 群 值 常常 会 导致 模型 训练 出 现 问 题 。 

输出 层 ( output layer ) 

神经 网 络 的 “最 后 ”一 层 ， 也 是 包含 答案 的 层 。 
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过 拟 合 ( overfitting ) 
创建 的 模型 与 训练 数据 过 于 匹配 ， 以 至 于 模型 无 法 根据 新 数据 做 出 正确 的 预测 。 


Pandas 


面向 列 的 数据 分 析 API。 很 多 机 器 学 习 框架 (包括 TensorFlow) 都 支持 将 Pandas 数据 


结构 作为 输入 。 可 参阅 Pandas 文档 。 


参数 ( parameter ) 
机 器 学 习 系统 自行 训练 的 模型 的 变量 。 例 如， 权重 就 是 一 种 参数 ,它们 的 值 是 机 器 学 习 系 


统 通过 连续 的 训练 欠 代 逐渐 学 习 到 的 。 与 超 参数 相对 。 


参数 服务 器 ( Parameter Server , PS ) 

一 种 作业 ， 负 责 在 分 布 式 设置 中 跟踪 模型 参数 。 

参数 更 新 ( parameter update ) 

在 训练 期 间 (通常 是 在 梯度 下 降 法 的 单 次 迭代 中 ) 调整 模型 参数 的 操作 。 

偏 导数 (partial derivative) 

一 种 导数 ， 除 了 一 个 变量 之 外 的 所 有 变量 都 被 视 为 常量 。 例 如 ，f(x, y) 对 x 的 偏 导 数 就 


是 f(x) 的 导数 (即使 y 保持 恒定 ) 。f x 的 偏 导数 仅 关 注 x 如 何 变化 ， 而 忽略 公式 中 的 所 
有 其 他 变量 。 





是 ， 
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分 区 策略 ( partitioning strategy ) 

参数 服务 器 中 分 割 变量 的 算法 。 

性 能 ( performance ) 

多 含义 术语 ， 具 有 以 下 含义 : 

e 在 软件 工程 中 的 传统 含义 ， 即 相应 软件 的 运行 速度 有 多 快 (或 有 多 高 效 ) 。 

e ”在 机 器 学 习 中 的 含义 。 在 机 器 学 习 领 域 ,性 能 旨 在 回答 的 问题 是 ， 相 应 模型 的 准确 度 
有 多 高 ， 即 模型 在 预测 方面 的 表现 得 有 多 好 。 

ARE ( perplexity ) 

一 种 衡量 指标 , 用 于 衡量 模型 能 够 多 好 地 完成 任务 。 例 如 , 假设 任务 是 读 取 用 户 使 用 智能 


手机 键盘 输入 字 词 时 输入 的 前 几 个 字母 , 然后 列 出 一 组 可 能 的 完整 字 词 。 此 任务 的 困惑 度 (PD 





为 了 使 列 出 的 字 词 中 包含 用 户 尝 试 输入 的 实际 字 词 ， 你 需要 提供 猜测 项 的 个 数 。 
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WR RE 53 5€ SU OR RTL 





P=2-cross entropy 
流水 线 ( pipeline ) 


机 器 学 习 算法 的 基础 架构 。 流 水 线 包括 收集 数据 、 将 数据 放 入 训练 数据 文件 、 训 练 一 个 或 
多 个 模型 以 及 将 模型 导出 到 生产 环境 。 


正 类 别 ( positive class ) 


在 二 元 分 类 中 , 两 种 可 能 的 类 别 分 别 被 标记 为 正 类 别 和 负 类 别 。 正 类 别 的 结果 是 我 们 要 测 
试 的 对 象 〈 不 可 否认 的 是 ， 我 们 会 同时 测试 这 两 种 结果 ， 但 只 关注 正 类 别 结果 ) 。 例 如 ， 在 医 
学 检查 中 ， 正 类 别 可 以 是 “肿瘤 ”; 在 电子 邮件 分 类 器 中 ， 正 类 别 可 以 是 “垃圾 邮件 ”。 

与 负 类 别 相对 。 


精确 率 ( precision ) 
一 种 分 类 模型 指标 。 精 确 率 指 模型 正确 预测 正 类 别 的 频率 ， 即 : 
精确 率 = 真 正 例 数 /〈 真 正 例 数 + 假 正 例 数 ) 

预测 ( prediction ) 

模型 在 收 到 输入 的 样本 后 的 输出 。 

预测 偏差 ( prediction bias ) 

一 个 值 ， 用 于 表明 预测 平均 值 与 数据 集中 标签 的 平均 值 相差 有 多 大 。 

预 创建 的 Estimator ( pre-made Estimator ) 

其 他 人 已 建 好 的 Estimator. TensorFlow 提供 了 一 些 预 创建 的 Estimator， 包 
4 DNNClassifier, DNNRegressor 和 LinearClassifier。 你 可 以 按照 这 些 说 明 构建 自己 预 创建 的 
Estimator。 

预 训练 模型 ( pre-trained model ) 

已 经 训练 过 的 模型 或 模型 组 件 〈 例 如 嵌 套 ) 。 有 时 ， 你 需要 将 预 训练 的 嵌 套 馈送 到 神经 
络 。 在 其 他 时 候 ， 你 的 模型 将 自行 训练 嵌 套 ， 而 不 依赖 于 预 训练 的 嵌 套 。 

先 验 信念 ( prior belief ) 

在 开始 采用 相应 数据 进行 训练 之 前 ， 你 对 这 些 数 据 抱 有 的 信念 。 例 如 ，L2 正则 化 依赖 的 
先 验 信念 是 权重 应 该 很 小 且 应 以 0 为 中 心 呈 正 态 分 布 。 
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队列 ( queue ) 
一 种 TensorFlow 操作 ， 用 于 实现 队列 数据 结构 ， 通 常用 于 VO 中 。 


等 级 ( rank ) 

机 器 学 习 中 的 一 个 多 含义 术语 ， 可 以 理解 为 下 列 含 义 之 一 : 

e 张 量 中 的 维度 数量 。 例 如 ， 标 量 等 级 为 0， 向 量 等 级 为 1， 矩 阵 等 级 为 2。 

@ 在 将 类 别 从 最 高 到 最 低 进 行 排序 的 机 器 学 习 问 题 中 ， 类别 的 顺序 位 置 。 例 如, 行为 排 
序 系统 可 以 将 小 狗 的 奖励 从 最 高 (牛排) 到 最 低 (甘蓝 ) 进行 排序 。 

评分 者 ( rater ) 

为 样本 提供 标签 的 人 ， 有 时 称 为 “注释 者 ”。 

召回 率 (recall ) 


一 种 分 类 模型 指标 , 用 于 回答 的 问题 是 : 在 所 有 可 能 的 正 类 别 标签 中 ,模型 正确 地 识别 出 
了 多 少 个 、 即 : 


召回 率 = 真 正 例 数 / (真正 例 数 + 假 负 例 数 ) 


修正 线性 单元 ( ReLU, Rectified Linear Unit ) 
一 种 激活 函数 ， 其 规则 如 下 : 

€ 如 果 输 入 为 负数 或 0， 则 输出 0. 

© 如 果 输 入 为 正 数 ， 则 输出 等 于 输入 。 

回归 模型 ( regression model ) 


一 种 模型 ， 能 够 输出 连续 的 值 通常 为 浮 点 值 ) 。 可 与 分 类 模型 进行 比较 ， 分 类 模型 输出 
离散 值 ， 例 如 “垃圾 邮件 ”或 “ 非 垃圾 邮件 ”。 


正则 化 ( regularization ) 
对 模型 复杂 度 的 惩罚 。 正 则 化 有 助 于 防止 出 现 过 拟 合 ， 包 含 以 下 类 型 : 


© LI 正则 化 。 

© 工 2 正则 化 。 

e ZEME. 

o Fk (这 不 是 正式 的 正则 化 方法 ， 但 可 以 有 效 限制 过 拟 合 ) 。 
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正则 化 率 ( regularization rate ) 


一 种 标量 值 ， 以 lambda 表示 ,用 于 指定 正则 化 函数 的 相对 重要 性 。 从 下 面 简化 的 损失 公 
式 中 可 以 看 出 正则 化 率 的 影响 : 


minimize(loss function + Mregularization function) ) 

提高 正则 化 率 可 以 减少 过 拟 合 ， 但 可 能 会 使 模型 的 准确 率 降 低 。 

表示 法 ( representation ) 

将 数据 映射 到 实用 特征 的 过 程 。 

ROC 曲线 ( Receiver Operating Characteristic 曲线 ) 

不 同 分 类 阔 值 下 的 真正 例 率 和 假 正 例 率 构成 的 曲线 。 另 可 参阅 曲线 下 面积 。 

根 目录 ( root directory ) 

你 指定 的 目录 ， 用 于 托管 多 个 模型 的 TensorFlow 检查 点 和 事件 文件 的 子 目 录 。 
均 方 根 误 差 ( Root Mean Squared Error , RMSE ) 

均 方 误 差 的 平方 根 。 


SavedModel 


保存 和 恢复 TensorFlow 模型 时 建议 使 用 的 格式 。SavedModel 是 一 种 独立 于 语言 且 可 恢 
复 的 序列 化 格式 ， 使 较 高 级 别 的 系统 和 工具 可 以 创建 、 使 用 和 转换 TensorFlow 模型 。 


Saver 

一 种 TensorFlow 对 象 ， 负 责 保存 模型 检查 点 。 

缩放 ( scaling ) 

特征 工程 中 的 一 种 常用 做 法 , 是 对 某 个 特征 的 值 区 间 进 行 调整 , 使 之 与 数据 集中 其 他 特征 
的 值 区 间 一 致 。 例 如, 假设 你 希望 数据 集中 所 有 浮 点 特征 的 值 都 位 于 0 到 1 的 区 间 内 ， 如 果 某 
个 特征 的 值 位 于 0 到 500 的 区 间 内 ， 就 可 以 通过 将 每 个 值 除 以 500 来 缩放 该 特征 。 

另 可 参阅 标准 化 。 


scikit-learn 

一 个 热门 的 开源 代码 机 器 学 习 平 台 。 可 访问 www.scikit-learn.org. 

半 监 督 式 学 习 ( semi-supervised learning ) 

训练 模型 时 采用 的 数据 中 ，, 某 些 训练 样本 有 标签 ,， 而 其 他 样本 则 没有 标签 。 半 监督 式 学 习 
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采用 的 一 种 技术 是 推断 无 标签 样本 的 标签 ， 然 后 使 用 推断 出 的 标签 进行 训练 ， 以 创建 新 模型 。 
如 果 获 得 有 标签 样本 需要 高 昂 的 成 本 ,而 无 标签 样本 则 有 很 多 , 那么 半 监 督 式 学 习 将 非常 有 用 。 
序列 模型 ( sequence model ) 

一 种 模型 ， 其 输入 具有 序列 依赖 性 。 例如， 根据 之 前 观看 过 的 一 系列 视频 对 观看 的 下 一 个 
视频 进行 预测 。 

会 话 ( session ) 

维持 TensorFlow 程序 中 的 状态 〈 例 如 变量 ) 。 

S 型 函数 ( sigmoid function ) 

一 种 函数 ， 可 将 逻辑 回归 输出 或 多 项 回归 输出 (对 数 概率 ) 映射 到 概率 ， 以 返回 介 于 0 
和 1 之 间 的 值 。 在 某 些 神经 网 络 中 ，S 型 函数 可 作为 激活 函数 使 用 。 

softmax 

一 种 函数 ， 可 提供 多 类 别 分 类 模型 中 每 个 可 能 类 别 的 概率 。 这 些 概率 的 总 和 正好 为 1.0。 
例如 ，softmax 可 能 会 得 出 某 个 图 像 是 狗 、 猫 和 马 的 概率 分 别 是 0.9、0.08 和 0.02。 (也 称 为 
完整 softmax。) 

与 候选 采样 相对 。 

稀疏 特征 ( sparse feature ) 

一 种 特征 向 量 ， 其 中 的 大 多 数值 都 为 0 或 为 空 。 例 如 ， 某 个 向 量 包含 一 个 为 1 的 值 和 一 百 
万 个 为 0 的 值 , 该 向 量 就 属于 稀疏 向 量 。 再 举 一 个 例子 , 搜索 查询 中 的 单词 也 可 能 属于 稀疏 特 
征 一 一 在 某 种 指定 语言 中 有 很 多 可 能 的 单词 ， 但 在 某 个 指定 的 查询 中 仅 包 含 其 中 几 个 。 

与 密集 特征 相对 。 

平方 合 页 损失 函数 ( squared hinge loss ) 

合 页 损失 函数 的 平方 。 与 常规 合 页 损失 函数 相 比 , 平方 合 页 损失 函数 对 离 群 值 的 惩罚 更 严厉 。 

平方 损失 函数 ( squared loss ) 

在 线性 回归 中 使 用 的 损失 函数 (也 称 为 L2 损失 函数 ) 。 该 函数 可 计算 模型 为 有 标签 样本 
预测 的 值 和 标签 的 实际 值 之 差 的 平方 。 由 于 取 平 方 值 ,因此 该 损失 函数 会 放大 不 佳 预测 的 影响 。 
也 就 是 说 ， 与 Li 损失 函数 相 比 ， 平 方 损失 函数 对 离 群 值 的 反应 更 强烈 。 

静态 模型 static model ) 

离线 训练 的 一 种 模型 。 

平稳 性 ( stationarity ) 


数据 集中 数据 的 一 种 属性 , 表示 数据 分 布 在 一 个 或 多 个 维度 保持 不 变 。 这 种 维度 最 常见 的 
是 时 间 ， 即 表明 平稳 性 的 数据 不 随时 间 而 变化 。 例 如 ， 从 9 月 到 12 月 ， 表 明 平 稳 性 的 数据 没 
有 发 生变 化 。 





468 


步 (step ) 

对 一 个 批 次 的 向 前 和 向 后 评估 。 

步 长 ( step size ) 

学 习 速 率 的 同义词 。 

随机 梯度 下 降 法 ( Stochastic Gradient Descent , SGD ) 

批 次 大 小 为 1 的 一 种 梯度 下 降 法 。 换 句 话说 ，SGD 依赖 于 从 数据 集中 随机 均匀 选择 的 单 
个 样本 来 计算 每 步 的 梯度 估算 值 。 

结构 风险 最 小 化 ( Structural Risk Minimization , SRM ) 

一 种 算法 ， 用 于 平衡 以 下 两 个 目标 : 

e ”期 望 构建 最 具 预 测 性 的 模型 ( 例如 损失 最 低 ) 。 

@ ”期 望 使 模型 尽 可 能 简单 (例如 强大 的 正则 化 ) 。 

例如 , 旨 在 将 基于 训练 集 的 损失 和 正则 化 降 至 最 低 的 模型 函数 就 是 一 种 结构 风险 最 小 化 算 
法 。 它 与 经 验 风 险 最 小 化 相对 。 

总 结 ( summary ) 

在 TensorFlow 中 的 某 一 步 计算 出 的 一 个 值 或 一 组 值 , 通常 用 于 在 训练 期 间 跟 踪 模 型 指标 。 

监督 式 机 器 学 习 ( supervised machine learning ) 


根据 输入 数据 及 其 对 应 的 标签 来 训练 模型 .监督 式 机 器 学 习 类 似 于 学 生 通过 研究 一 系列 问 
题 及 其 对 应 的 答案 来 学 习 某 个 主题 。 在 掌握 了 问题 和 答案 之 间 的 对 应 关系 后 , 学 生 便 可 以 回答 
关于 同一 主题 的 新 问题 〈 以 前 从 未 见 过 的 问题 )》。 可 与 非 监督 式 机 器 学 习 进 行 比较 。 


合成 特征 ( synthetic feature ) 


一 种 特征 ， 不 在 输入 特征 之 列 ， 而 是 从 一 个 或 多 个 输入 特征 衍生 而 来 的 。 合 成 特征 包括 以 
下 类 型 


@ 将 一 个 特征 与 其 本 身 或 其 他 特征 相 乘 ( 称 为 特征 组 合 ) 。 
e ”两 个 特征 相 除 。 
@ ”对 连续 特征 进行 分 桶 ， 以 分 为 多 个 区 间 分 箱 。 


通过 标准 化 或 缩放 单独 创建 的 特征 不 属于 合成 特征 。 
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目标 ( target ) 

标签 的 同义词 。 

时 态 数 据 ( temporal data ) 

在 不 同时 间 点 记录 的 数据 。 例 如 ， 记 录 的 一 年 中 每 一 天 的 冬 外 套 销量 就 属于 时 态 数据 。 
张 量 ( Tensor ) 


TensorFlow 程序 中 的 主要 数据 结构 。 张 量 是 N 维 (其 中 寺 可 能 非常 大 ) 数据 结构 ， 最 党 
见 的 是 标量 、 向 量 或 矩阵 。 张 量 的 元 素 可 以 包含 整数 值 、 浮 点 值 或 字符 串 值 。 


张 量 处 理 单元 ( Tensor Processing Unit , TPU ) 

一 种 ASIC (应 用 专用 集成 电路 ) ， 用 于 优化 TensorFlow 程序 的 性 能 。 

张 量 等 级 ( Tensor rank ) 

可 参阅 等 级 。 

张 量 形状 ( Tensor shape ) 

张 量 在 各 种 维度 中 包含 的 元 素数 。 例 如 ， 张 量 [5,10] 在 一 个 维度 中 的 形状 为 5， 在 另 一 
个 维度 中 的 形状 为 10。 

张 量 大 小 ( Tensor size ) 

张 量 包 含 的 标量 总 数 。 例 如 ， 张 量 [5, 10] 的 大 小 为 50。 

TensorBoard 

一 个 信息 中 心 ， 用 于 显示 在 执行 一 个 或 多 个 TensorFlow 程序 期 间 保存 的 摘要 信息 。 

TensorFlow 

一 个 大 型 的 分 布 式 机 器 学 习 平台 。 该 术语 还 指 TensorFlow 堆栈 中 的 基本 API 层 ， 该 层 
支持 对 数据 流 图 进行 一 般 计 算 。 虽 然 TensorFlow 主要 应 用 于 机 器 学 习 领域 ,但 也 可 用 于 需要 
使 用 数据 流 图 进行 数值 计算 的 非 机 器 学 习 任务 。 

TensorFlow Playground 

一 款 用 于 直观 呈现 不 同 的 超 参数 对 模型 〈 主 要 是 神经 网 络 ) 训练 的 影响 的 程序 。 要 试用 
TensorFlow Playsground， 可 前 往 http://playground.tensorflow.org. 





TensorFlow Serving 


一 个 平台 ， 用 于 将 训练 过 的 模型 部 署 到 生产 环境 。 
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测试 集 test set ) 

数据 集 的 子 集 ， 用 于 在 模型 经 由 验证 集 的 初步 验证 之 后 测试 模型 。 

与 训练 集 和 验证 集 相 对 。 

tf.Example 

一 种 标准 的 proto buffer， 旨 在 描述 用 于 机 器 学 习 模型 训练 或 推断 的 输入 数据 。 
时 间 序 列 分 析 ( time series analysis ) 


机 器 学 习 和 统计 学 的 一 个 子 领域 , 旨 在 分 析 时 态 数据 。 很 多 类 型 的 机 器 学 习 问 题 都 需要 时 
间 序 列 分 析 ， 其 中 包括 分 类 、 聚 类 、 预 测 和 异常 检测 。 例 如 ， 你 可 以 利用 时 间 序列 分 析 根 据 历 
史 销 量 数 据 预测 未 来 每 月 的 冬 外 套 销量 。 


训练 (training ) 

确定 构成 模型 的 理想 参数 的 过 程 。 

训练 集 ( training set ) 

数据 集 的 子 集 ， 用 于 训练 模型 。 与 验证 集 和 测试 集 相对 。 
转移 学 习 ( transfer learning ) 


将 信息 从 一 个 机 器 学 习 任务 转移 到 另 一 个 机 器 学 习 任 务 。 例 如 , 在 多 任务 学 习 中 ,一 个 模 
型 可 以 完成 多 项 任务 , 针对 不 同 任务 具有 不 同 输出 节点 的 深度 模型 ， 转 移 学 习 可 能 涉及 将 知识 
从 较 简 单 任务 的 解决 方案 转移 到 较 复 杂 的 任务 ,或 者 将 知识 从 数据 较 多 的 任务 转移 到 数据 较 少 
的 任务 。 

大 多 数 机 器 学 习 系统 都 只 能 完成 一 项 任务 。 转 移 学 习 是 迈 向 人 工 智 能 的 一 小 步 , 在 人 工 智 
能 中 ， 单 个 程序 可 以 完成 多 项 任务 。 

真 负 例 ( Rue Negative , TN ) 


被 模型 正确 地 预测 为 负 类 别 的 样本 。 例 如 ， 模 型 推断 出 某 封 电子 邮件 不 是 垃圾 邮件 ， 而 该 
电子 邮件 确实 不 是 垃圾 邮件 。 


真正 例 ( True Positive , TP ) 


被 模型 正确 地 预测 为 正 类 别 的 样本 。 例 如 ， 模 型 推断 出 某 封 电子 邮件 是 垃圾 邮件 ， 而 该 电 
子 邮件 确实 是 垃圾 邮件 。 


真正 例 率 ( True Positive Rate , TP 率 ) 
召回 率 的 同义词 ， 即 : 

真正 例 率 = 真 正 例 数 /〈 真 正 例 数 + 假 负 例 数 ) 
真正 例 率 是 ROC 曲线 的 y fü. 
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无 标签 样本 ( unlabeled example ) 


包含 特征 但 没有 标签 的 样本 。 无 标签 样本 是 用 于 进行 推断 的 输入 内 容 。 在 半 监 督 式 和 非 监 
督 式 学 习 中 ， 无 标签 样本 在 训练 期 间 被 使 用 。 


非 监督 式 机 器 学 习 ( unsupervised machine learning ) 


训练 模型 ， 以 找 出 数据 集 (通常 是 无 标签 数据 集 ) 中 的 模式 。 

非 监督 式 机 器 学 习 最 常见 的 用 途 是 将 数据 分 为 不 同 的 聚 类 ， 使 相似 的 样本 位 于 同一 组 中 。 
例如 , 非 监督 式 机 器 学 习 算法 可 以 根据 音乐 的 各 种 属性 将 歌曲 分 为 不 同 的 聚 类 。 所 得 聚 类 可 以 
作为 其 他 机 器 学 习 算 法 (例如 音乐 推荐 服务 ) 的 输入 。 在 很 难 获取 真 标签 的 领域 ， 聚 类 可 能 会 
非常 有 用 。 例 如 ， 在 反 滥用 和 反 欺诈 等 领域 ， 聚 类 有 助 于 人 们 更 好 地 了 解 相关 数据 。 

非 监督 式 机 器 学 习 的 另 一 个 例子 是 主 成 分 分 析 (PCA) 。 例 如 ， 通 过 对 购物 车 中 包含 数 百 
万 物品 的 数据 集 进行 主 成 分 分 析 ， 可 能 会 发 现 有 柠檬 的 购物 车 中 往往 也 有 抗 酸 药 。 

可 与 监督 式 机 器 学 习 进行 比较 。 


V 


验证 集 ( validation set ) 


数据 集 的 一 个 子 集 ， 从 训练 集 分 离 而 来 ， 用 于 调整 超 参数 。 
与 训练 集 和 测试 集 相 对 。 


W 


权重 ( weight ) 

线性 模型 中 特征 的 系数 , 或 深度 网 络 中 的 边 。 训练 线性 模型 的 目标 是 确定 每 个 特征 的 理想 
权重 。 如 果 权 重 为 0， 则 相应 的 特征 对 模型 来 说 没有 任何 贡献 。 

宽度 模型 ( wide model ) 

一 种 线性 模型 ， 通 常 有 很 多 稀疏 输入 特征 。 我 们 之 所 以 称 之 为 “宽度 模型 ”， 是 因为 这 是 
一 种 特殊 类 型 的 神经 网 络 ， 其 大 量 输入 均 直 接 与 输出 节点 相连 。 与 深度 模型 相 比 ， 宽 度 模型 通 
常 更 易于 调试 和 检查 。 虽 然 宽度 模型 无 法 通过 隐藏 层 来 表示 非 线 性 关系 ,但 可 以 利用 特征 组 合 、 
分 桶 等 转换 以 不 同 的 方式 为 非 线性 关系 建 模 。 

与 深度 模型 相对 。 
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